技术教育社区
www.teccses.org

大数据导论/李建伟

封面

作者:李建伟

页数:260

出版社:北京邮电大学出版社

出版日期:2018

ISBN:9787563558810

电子书格式:pdf/epub/txt

内容简介

本书系统地介绍了大数据技术的基础知识。本书实战环节的知识是在大数据培训的基础上总结提炼出来的,案例都为企业实际开发中的案例,所以内容的科学性和有效性已经被证实过,期望读者通过对本书的学习和对本书案例的实践,理解大数据技术的概念和原理,掌握Hadoop大数据技术中最基础和最重要的知识和实践。

作者简介

李建伟,2005年毕业于北京邮电大学,美国Marist College访问学者,主要研究方向:智能自适应学习系统和大数据学习分析,曾主持研发了北京邮电大学网络教育学院远程教育平台。主要参与的国家级、省部级科研项目有国家“十五”重大科技攻关计划“网络教育关键技术及示范工程项目”,国家科技支撑计划项目“虚拟实验智能指导与管理系统的研发”,国家科技重大专项“宽带无线校园创新实验网体系架构与关键技术研究”等,已发表论文19篇,获得国家发明专利2项,获得北京市教学成果二等奖1次。

本书特色

本书系统地介绍了大数据技术的基础知识。本书实战环节的知识是在大数据培训的基础上总结提炼出来的,案例都为企业实际开发中的案例,所以内容的科学性和有效性已经被证实过,期望读者通过对本书的学习和对本书案例的实践,理解大数据技术的概念和原理,掌握Hadoop大数据技术中最基础和最重要的知识和实践。
本书的主要内容包括大数据的概念及价值,Hadoop2.0介绍,分布式文件系统HDFS的原理、常用命令操作和编程实践,分布式计算框架MapReduce的原理、基础编程和高级编程,分布式资源管理系统YARN平台,分布式锁服务ZooKeeper,Hadoop高可用集群搭建和Hadoop实战项目。
本书可作为高等院校成人教育数据科学与大数据技术、计算机科学与技术和软件工程等专业的大数据课程教材,也可作为相关技术人员的参考书。

目录

第1章大数据概述1

1.1大数据概念及价值1

1.2大数据数据源4

1.3大数据技术应用场景5

1.4大数据处理流程及技术7

1.5大数据与云计算的关系9

1.6大数据与人工智能的关系10

本章小结11

习题一11

第2章Hadoop介绍12

2.1Hadoop简介12

2.1.1Hadoop由来12

2.1.2Hadoop发展历程12

2.1.3Hadoop生态系统14

2.2Hadoop的体系架构17

2.2.1分布式文件系统HDFS17

2.2.2分布式计算框架MapReduce18

2.2.3分布式资源调度系统YARN18

2.3Hadoop依赖的技术基础19

2.3.1Java编程基础19

2.3.2Web可视化技术基础27

2.3.3关系数据库基础30

2.3.4Linux基础31

2.4Hadoop2.0集群搭建69

2.4.1伪分布式安装部署69

2.4.2全分布式安装部署74

本章小结80

习题二80

第3章分布式文件系统HDFS81

3.1HDFS简介81

3.2HDFS的设计目标81

3.3HDFS的体系架构82

3.3.1主从架构83

3.3.2HDFS高可用性架构84

3.4HDFS的核心设计87

3.4.1数据复制87

3.4.2健壮性设计90

3.4.3数据组织91

3.4.4存储空间回收机制91

3.4.5可访问性92

3.5HDFS中数据流的读写93

3.5.1RPC实现流程93

3.5.2文件的读取94

3.5.3文件的写入95

3.5.4一致性模型97

3.6HDFS的联邦机制98

本章小结99

习题三100

第4章访问HDFS的常用接口101

4.1HDFS常用命令接口101

4.2HDFS编程环境准备105

4.2.1IDEA的安装配置及特性105

4.2.2Maven的安装配置114

4.3Java接口119

4.3.1在本地Windows机器上配置Hadoop环境变量121

4.3.2编写Java客户端程序122

本章小结130

习题四130

第5章分布式计算框架MapReduce131

5.1MapReduce编程模型简介131

5.1.1产生背景131

5.1.2MapReduce编程模型133

5.1.3MapReduce工作流程134

5.1.4MapReduce两个版本比较139

5.2MapReduce入门编程140

5.2.1认识Map和Reduce140

5.2.2MapTask阶段140

5.2.3ReduceTask阶段145

本章小结147

习题五148

第6章MapReduce基础编程149

6.1MapReduce编程设计149

6.1.1MapReduce分布式计算模型149

6.1.2MapReduce分布式编程框架150

6.2MapReduce编程实例wordcount151

6.2.1wordcount开发需求分析151

6.2.2编程环境准备152

6.2.3编写Mapper类152

6.2.4编写Reducer类154

6.2.5MapReduce程序在YARN集群的运行机制155

6.2.6编写YARN的客户端156

6.2.7YARN集群的配置、作业打包和启动161

本章小结163

习题六163

第7章分布式资源管理系统YARN165

7.1YARN简介165

7.2发展史165

7.2.1Hadoop1.0165

7.2.2Hadoop2.0和Hadoop1.0的区别166

7.2.3MapReduce计算框架的演变166

7.3YARN的架构167

7.4YARN集群执行应用程序的工作流程169

7.5Hadoop如何使用YARN运行一个Job170

7.6YARN的调度策略173

7.7YARN的重要概念总结176

本章小结176

习题七177

第8章MapReduce高级编程178

8.1Combiner178

8.2Partitioner179

8.3计数器180

8.4排序188

8.5Join连接197

8.6倒排索引205

8.7求平均值和数据去重210

本章小结215

习题八216

第9章分布式锁服务ZooKeeper217

9.1ZooKeeper基本概念介绍217

9.1.1ZooKeeper的定义217

9.1.2ZooKeeper的基本原理和应用场景217

9.1.3ZooKeeper的选举机制218

9.1.4ZooKeeper的存储机制220

9.2ZooKeeper集群部署220

9.3ZooKeeper编程实例222

9.3.1ZooKeeper API基础知识222

9.3.2ZooKeeper API介绍及编程实例222

本章小结229

习题九229

第10章Hadoop高可用集群搭建230

10.1HDFS高可用的工作机制230

10.2集群规划231

10.3Hadoop HA集群搭建232

10.3.1前期准备232

10.3.2安装ZooKeeper集群233

10.3.3安装Hadoop集群234

10.3.4启动集群242

10.3.5测试245

本章小结247

习题十247

参考文献248

下载地址

立即下载

(解压密码:www.teccses.org)

Article Title:《大数据导论/李建伟》
Article link:https://www.teccses.org/1092627.html