技术教育社区
www.teccses.org

大数据技术基础及应用教程(Linux+Hadoop+Spark面向新工科高等院校大数据专业系列教材)

封面

作者:井超 樊永生 等编著

页数:228

出版社:机械工业出版社

出版日期:2022

ISBN:9787111710912

电子书格式:pdf/epub/txt

内容简介

本书从大数据技术相关概念出发,系统介绍了构建大数据平台的相关技术,并在此基础上进行离线数据分析和在线数据分析。全书共三篇,分为7章,内容包括技术基础篇、分布式集群篇、平台构建篇,第壹篇包括大数据技术概述、大数据分析技术,第二篇包括Linux技术基础、Hadoop技术基础及构建Hadoop集群、Spark技术基础及构建Spark集群,第三篇包括构建基于Spark的实时交易数据统计平台、构建基于Hadoop的离线电商大数据分析平台。
本书以理论为基础,以实例为引导,完整阐述了如何从无到有搭建大数据平台,并在此平台基础上进行应用。本书配套资源丰富,包括教学PPT、所有程序的源代码、相关集群虚拟机、扩展学习视频、课后练习题及答案,可方便授课教师教学及学生自学。
本书可作为高校数据科学与大数据技术等相关专业的教材,也可作为对大数据技术感兴趣的相关人员的参考用书。
本书配有授课教学资源,需要的教师可登录www.cmpedu.com免费注册,审核通过后下载,或联系编辑索取(微信:15910938545,电话:010-88379739)。

本书特色

适读人群 :高校数据科学与大数据技术等相关专业学生系统介绍大数据三大核心技术(Linux、Hadoop、Spark)原理及其应用。
实例讲解典型大数据应用:构建基于分布式集群的大数据平台及离线/在线数据分析。
丰富的教学配套资源:教学PPT、程序源代码、集群虚拟机、扩展学习视频、课后练习题及答案。

目录

目录

前言

第一篇 技术基础篇

第1章 大数据技术概述2

1.1 大数据的基本概念2

1.1.1 大数据的产生阶段2

1.1.2 大数据的特征2

1.1.3 大数据在各个领域的应用3

1.1.4 大数据的核心技术和计算模式3

1.2 分布式技术与集群4

1.2.1 分布式技术概述4

1.2.2 分布式大数据集群概述4

1.3 大数据技术生态圈7

1.3.1 Linux操作系统7

1.3.2 Hadoop生态系统9

1.3.3 Spark对Hadoop的完善13

本章小结13

本章练习13

第2章 大数据分析技术15

2.1 大数据分析流程及相关技术15

2.1.1 数据采集与预处理15

2.1.2 大数据存储16

2.1.3 大数据分析与挖掘17

2.1.4 数据可视化18

2.2 大数据分析常用方法18

2.2.1 数理统计分析18

2.2.2 聚类分析18

2.2.3 分类分析19

2.2.4 回归分析19

2.3 数据分析基础工具19

2.3.1 数据采集工具—Selenium和

PhantomJS19

2.3.2 数据清洗工具—Kettle20

2.3.3 数据存储工具—MongoDB和

MySQL21

2.3.4 机器学习工具—Scikit-learn23

2.3.5 数据可视化工具—Matplotlib、

PyEcharts、Superset23

本章小结25

本章练习26

第二篇 分布式集群篇

第3章 Linux技术基础28

3.1 用户与组管理28

3.1.1 用户管理相关命令28

3.1.2 组管理相关命令29

3.1.3 其他命令29

3.2 文件与目录管理29

3.2.1 常用文件操作命令29

3.2.2 目录操作命令31

3.2.3 改变文件或目录访问权限32

3.2.4 文件备份和压缩33

3.3 进程管理与作业控制33

3.3.1 进程查看34

3.3.2 进程调度34

3.4 磁盘存储管理34

3.4.1 磁盘管理命令35

3.4.2 存取命令35

3.5 系统管理与常用网络命令35

3.5.1 系统管理35

3.5.2 常用网络命令36

3.6 在线帮助系统36

3.7 实践:Linux操作系统的

安装与部署37

3.7.1 Linux的安装和卸载37

3.7.2 局域网主机间远程复制文件/

目录38

3.7.3 XML文件介绍38

3.7.4 VMware安装及CentOS系统

环境准备40

3.7.5 克隆虚拟机48

3.7.6 配置主机名50

3.7.7 配置网络IP地址51

本章小结53

本章练习53

第4章 Hadoop技术基础及构建

Hadoop集群55

4.1 Hadoop技术基础55

4.1.1 Hadoop的组成55

4.1.2 Hadoop的运行模式62

4.1.3 HDFS文件的存取63

4.1.4 Hadoop集群的环境配置64

4.1.5 Hadoop集群的搭建65

4.1.6 启动Hadoop集群69

4.2 ZooKeeper技术基础及部署70

4.2.1 ZooKeeper简介70

4.2.2 ZooKeeper的安装部署73

4.2.3 Leader选举机制75

4.2.4 ZooKeeper客户端访问集群

(命令行操作方式)82

4.3 HDFS与YARN高可用技术

基础84

4.3.1 HDFS高可用的工作机制84

4.3.2 HDFS高可用配置85

4.3.3 YARN高可用的工作机制93

4.3.4 YARN高可用配置94

4.4 实践:HDFS及MapReduce的

应用示例98

4.4.1 读写HDFS文件98

4.4.2 MapReduce操作 1:二次排序105

4.4.3 MapReduce操作 2:计数器110

4.4.4 MapReduce操作 3:Join操作113

本章小结119

本章练习119

第5章 Spark技术基础及构建

Spark集群121

5.1 Spark核心机制121

5.1.1 Spark基本原理121

5.1.2 Spark系统架构122

5.1.3 Spark Shell操作123

5.2 Hive原理及实践124

5.2.1 Hive定义124

5.2.2 Hive架构124

5.2.3 Hive表分类及查询操作126

5.3 HBase原理及实践130

5.3.1 HBase定义130

5.3.2 HBase集群架构130

5.3.3 HBase数据模型131

5.4 Kafka原理及实践133

5.4.1 Kafka定义133

5.4.2 Kafka消息队列133

5.4.3 Kafka基础架构134

5.5 Flume原理及实践135

5.5.1 Flume简介135

5.5.2 Flume基础架构135

5.6 实践:搭建基于Spark的实时

大数据平台137

5.6.1 Spark安装部署137

5.6.2 MySQL安装部署140

5.6.3 Hive安装部署141

5.6.4 HBase安装部署143

5.6.5 Kafka安装部署147

5.6.6 Flume安装部署149

5.6.7 Spark集群典型应用150

本章小结158

本章练习158

第三篇 平台构建篇

第6章 构建基于Spark的实时交易

数据统计平台161

6.1 系统需求与架构161

6.1.1 系统背景介绍161

6.1.2 系统功能需求162

6.1.3 系统架构设计162

6.2 Redis简介163

6.2.1 Redis数据库的作用163

6.2.2 Redis部署与启动163

6.2.3 Redis常用命令165

6.3 系统开发流程166

6.4 数据获取模块实现174

6.4.1 模拟订单数据174

6.4.2 向Kafka集群发送订单数据175

6.5 数据分析与处理模块实现178

6.5.1 分析订单数据178

6.5.2 生成结果182

6.6 数据可视化模块实现182

6.6.1 搭建Web开发环境183

6.6.2 实现数据展示功能185

6.6.3 可视化平台展示192

本章小结192

本章练习192

第7章 构建基于Hadoop的离线

电商大数据分析平台194

7.1 系统需求与架构194

7.1.1 系统背景介绍194

7.1.2 系统功能需求195

7.1.3 系统架构设计195

7.2 数据采集模块实现196

7.2.1 商品信息爬取196

7.2.2 调试分析210

7.3 数据处理与存储模块实现211

7.3.1 信息分析与处理211

7.3.2 商品信息存储220

7.3.3 调试分析222

7.4 数据可视化模块实现222

7.4.1 使用Superset连接MySQL

数据库223

7.4.2 调试分析223

本章小结226

本章练习227

参考文献228

下载地址

立即下载

(解压密码:www.teccses.org)

Article Title:《大数据技术基础及应用教程(Linux+Hadoop+Spark面向新工科高等院校大数据专业系列教材)》
Article link:https://www.teccses.org/1383241.html