技术教育社区
www.teccses.org

Hadoop 核心技术与实战

封面

作者:潘正高 施霖

页数:336

出版社:清华大学出版社

出版日期:2022

ISBN:9787302524649

电子书格式:pdf/epub/txt

内容简介

本书针对Hadoop体系的基本技术方法进行分析,并将理论与实际项目进行结合。本书层次清晰,结构合理,全书共分为11个章节,主要内容包括Hadoop简介、Hadoop环境搭建、HDFS文件系统操作、MapReduce程序编写、Hive安装与配置、Hive操作、HBase安装与配置、HBase操作与客户端使用、Pig安装与使用、Pig Latin的使用、Sqoop安装与数据操作、大数据项目案例分析等。
本书适合Hadoop的初学者进行阅读,也可作为高等院校相关课程的教学参考书。

本书特色

本书针对Hadoop体系的基本技术方法进行分析,并将理论与实际项目进行结合。本书层次清晰,结构合理,全书共分为11个章节,主要内容包括Hadoop简介、Hadoop环境搭建、HDFS文件系统操作、MapReduce程序编写、Hive安装与配置、Hive操作、HBase安装与配置、HBase操作与客户端使用、Pig安装与使用、Pig Latin的使用、Sqoop安装与数据操作、大数据项目案例分析等。
本书适合Hadoop的初学者进行阅读,也可作为高等院校相关课程的教学参考书。

目录

基础篇

第1章Hadoop基础

1.1Hadoop简介

1.1.1什么是Hadoop

1.1.2Hadoop项目及其结构

1.1.3Hadoop体系结构

1.1.4Hadoop与分布式开发

1.1.5Hadoop计算模型——MapReduce on Yarn

1.1.6Hadoop数据管理

1.1.7Hadoop集群安全策略

1.2Hadoop的安装与配置

1.2.1安装JDK 1.8与配置SSH免密码登录

1.2.2安装并运行Hadoop

第2章Hadoop存储: HDFS

2.1HDFS的基本操作

2.1.1HDFS的命令行操作

2.1.2HDFS的Web界面

2.1.3通过distcp进行并行复制

2.1.4使用Hadoop归档文件

2.2WebHDFS

2.2.1WebHDFS的配置

2.2.2WebHDFS命令

2.3HDFS常见的Java API介绍

2.3.1使用Hadoop URL读取数据

2.3.2使用FileSystem API读取数据

2.3.3创建目录

2.3.4写数据

2.3.5删除数据

2.3.6文件系统查询

第3章Hadoop计算: MapReduce

3.1MapReduce应用程序编写

3.1.1实例描述

3.1.2设计思路

3.1.3代码数据流

3.1.4程序代码

3.1.5代码解读

3.1.6程序执行

3.1.7代码结果

3.2使用MapReduce求每年最低温度

3.2.1作业描述

3.2.2程序代码

3.2.3准备输入数据

3.2.4运行程序

高级篇

第4章数据仓库: Hive

4.1Hive的安装和配置

4.1.1安装详细步骤

4.1.2Hive内部是什么

4.2数据定义

4.2.1Hive中的数据库

4.2.2修改数据库

4.2.3创建表

4.2.4分区表

4.2.5删除表

4.2.6修改表

第5章Hive数据操作与查询

5.1数据操作

5.1.1向管理表中装载数据

5.1.2通过查询语句向表中插入数据

5.1.3单个查询语句中创建表并加载数据

5.1.4导出数据

5.2数据查询

5.2.1SELECT…FROM语句

5.2.2WHERE语句

5.2.3GROUP BY语句

5.2.4HAVING语句

5.2.5JOIN语句

5.2.6ORDER BY和SORT BY

5.2.7含有SORT BY 的DISTRIBUTE BY

5.2.8CLUSTER BY

5.2.9类型转换

5.2.10抽样查询

5.2.11UNION ALL

5.3Hive实战

5.3.1背景

5.3.2实战数据及要求

5.3.3实验步骤

第6章Hadoop数据库: HBase

6.1HBase概述

6.1.1HBase的发展历史

6.1.2HBase的发行版本

6.1.3HBase的特性

6.1.4HBase与Hadoop的关系

6.1.5HBase的核心功能模块

6.2HBase的安装和配置

6.2.1HBase的运行模式

6.2.2HBase的Web UI

6.2.3Hbase Shell工具使用

6.2.4停止HBase集群

第7章HBase数据操作

7.1Shell工具的使用

7.1.1命令分类

7.1.2常规命令

7.1.3DDL命令

7.1.4DML命令

7.1.5工具命令Tools

7.1.6复制命令

7.1.7安全命令

7.2Java客户端的使用

7.2.1客户端配置

7.2.2创建表

7.2.3删除表

7.2.4插入数据

7.2.5查询数据

7.2.6删除数据

第8章并行数据流处理引擎: Pig

8.1Pig概述

8.1.1Pig是什么

8.1.2Pig的发展简史

8.2Pig的安装和使用

8.2.1下载和安装Pig

8.2.2命令行使用以及配置选项介绍

8.2.3返回码

8.3命令行交互工具

8.3.1Grunt概述

8.3.2在Grunt中输入Pig Latin脚本

8.3.3在Grunt中使用HDFS命令

8.3.4在Grunt中控制Pig

第9章Pig Latin的使用

9.1Pig Latin概述

9.1.1基础知识

9.1.2输入和输出

9.2关系操作

9.2.1foreach

9.2.2Filter

9.2.3Group

9.2.4Order by

9.2.5distinct

9.2.6Join

9.2.7Limit

9.2.8Sample

9.2.9Parallel

9.3用户自定义函数UDF

9.3.1注册UDF

9.3.2define命令和UDF

9.3.3调用静态Java函数

第10章SQL to Hadoop: Sqoop

10.1Sqoop概述

10.1.1Sqoop的产生背景

10.1.2Sqoop是什么

10.1.3为什么选择Sqoop

10.1.4Sqoop1和 Sqoop2的异同

10.1.5Sqoop1与Sqoop2的架构图

10.1.6Sqoop1与Sqoop2的优缺点

10.2Sqoop安装部署

10.2.1下载Sqoop

10.2.2设置/etc/profile参数

10.2.3设置bin/configure瞫qoop配置文件

10.2.4设置conf/sqoop瞖nv.sh配置文件

10.2.5验证安装完成

10.3Sqoop常用命令介绍

10.3.1如何列出帮助

10.3.2Export

10.3.3Import

10.3.4Job作业

10.4数据操作

10.4.1MySQL数据导入到HDFS中

10.4.2HDFS数据导入到MySQL中

实战篇

第11章项目实战

11.1项目背景与数据情况

11.1.1项目概述

11.1.2项目分析指标

11.1.3项目开发步骤

11.1.4表结构设计

11.2环境搭建

11.2.1MySQL的安装

11.2.2Eclipse的安装

11.3数据清洗

11.3.1数据分析

11.3.2数据清洗流程

11.4数据统计分析

11.4.1建立分区表

11.4.2使用HQL统计关键指标

11.4.3使用Sqoop将数据导入到MySQL数据表

11.5定时任务处理

11.5.1日志数据定时上传

11.5.2日志数据定期清理

11.5.3数据定时统计分析

参考文献

下载地址

立即下载

(解压密码:www.teccses.org)

Article Title:《Hadoop 核心技术与实战》
Article link:https://www.teccses.org/1371175.html