作者:黑马程序员 著
出版社:清华大学出版社
出版日期:2025
ISBN:9787302685302
电子书格式:pdf/epub/txt
网盘下载地址:下载SPARK项目实训(PYTHON版)
内容简介
“本书以电商网站中的用户行为数据作为数据源,系统介绍了使用Spark生态系统进行离线分析和实时分析的方法。全书共6章,分别讲解了项目概述、搭建集群环境、使用Flume实现数据采集、使用Hive构建数据仓库、使用Spark进行数据分析以及使用FineBI实现数据可视化。
本书附有教学PPT、教学设计等资源,同时,为了帮助初学者更好地学习书中内容,还提供了在线答疑,欢迎读者关注。
本书适合作为高等学校数据科学与大数据技术及相关专业的教材,也适合数据分析、数据可视化等领域的从业者阅读。”
本书特色
本书为传智播客公司大数据系列中的一本,全书内容完整,结构清晰,条理分明,术语规范,描述流畅,质量较好。本书以电商网站中的用户行为数据作为数据源,系统地介绍了如何使用 Spark生态系统进行离线分析和实时分析的方法。全书共6章,分别讲解了项目概述、集群环境搭建、使用Flume实现数据采集、使用Hive构建数据仓库、使用Spark进行数据分析以及使用FineBI实现数据可视化。本书有较高的知识性、科学性和实用性,出版价值较高。本书附有配套视频、教学PPT、教学设计等资源,同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。
目录
第1章项目概述1
1.1项目需求和目标1
1.2预备知识2
1.3项目架构3
1.4开发环境和工具3
1.5项目开发流程5
1.6本章小结6
第2章搭建集群环境7
2.1基础环境搭建7
2.1.1创建虚拟机7
2.1.2安装Linux操作系统15
2.1.3克隆虚拟机23
2.1.4配置虚拟机26
2.2安装JDK38
2.3部署Hadoop集群42
2.4部署Hive50
2.5部署Flume56
2.6部署ZooKeeper集群57
2.7部署Kafka集群61
2.8部署Spark64
2.9部署Doris集群67
2.10本章小结74
第3章数据采集75
3.1用户行为数据概述75
3.2模拟生成用户行为数据76
3.2.1生成历史用户行为数据77
3.2.2生成实时用户行为数据82
3.3配置采集方案83
3.4采集用户行为数据87
3.5本章小结91
第4章数据仓库92
4.1 数据仓库设计92
4.2构建数据仓库96
4.3向数据仓库加载数据100
4.3.1向ODS层的表加载数据101
4.3.2向DWD层的表加载数据103
4.4本章小结112
第5章数据分析113
5.1流量分析113
5.2商品分析119
5.3设备分析123
5.4推荐系统127
5.5地域分析133
5.6本章小结138
第6章数据可视化139
6.1Doris集成Hive139
6.2FineBI的安装与配置143
6.3实现数据可视化152
6.3.1新建数据集152
6.3.2实现流量分析的可视化158
6.3.3实现商品分析的可视化169
6.3.4实现设备分析的可视化175
6.3.5实现地域分析的可视化178
6.4本章小结184
前言
党的二十大报告强调了“加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群”的重要性。随着云计算、移动互联网、电子商务、物联网和社交媒体的蓬勃发展,全球数据正以惊人的速度呈指数级增长,大数据已成为与物质资产和人力资本同等重要的战略资源。
然而,数据的价值不仅取决于数量,更取决于质量和分析能力。要从海量数据中挖掘出真正的价值,需要构建高效的数据采集、存储、处理和分析体系,为商业决策和社会发展提供有力支撑。
本书以电商网站用户行为数据为基础,系统讲解利用Spark生态系统进行离线分析和实时分析的方法,适合具备一定数据分析知识和大数据基础的读者学习。本书共6章,具体如下。
第1章带领读者初步了解项目背景、核心需求、技术架构及开发流程。
第2章详细介绍基于Linux操作系统搭建集群环境,包括Hadoop、Hive、Flume、Kafka、Spark等。
第3章讲解通过配置Flume的采集方案实现历史和实时用户行为数据的采集。