SPARK项目实训(PYTHON版) pdf/epub/txt电子书下载-技术教育社区

作者：黑马程序员著

出版社：清华大学出版社

出版日期：2025

ISBN：9787302685302

电子书格式：pdf/epub/txt

内容简介

“本书以电商网站中的用户行为数据作为数据源，系统介绍了使用Spark生态系统进行离线分析和实时分析的方法。全书共6章，分别讲解了项目概述、搭建集群环境、使用Flume实现数据采集、使用Hive构建数据仓库、使用Spark进行数据分析以及使用FineBI实现数据可视化。
本书附有教学PPT、教学设计等资源，同时，为了帮助初学者更好地学习书中内容，还提供了在线答疑，欢迎读者关注。
本书适合作为高等学校数据科学与大数据技术及相关专业的教材，也适合数据分析、数据可视化等领域的从业者阅读。”

本书特色

本书为传智播客公司大数据系列中的一本，全书内容完整，结构清晰，条理分明，术语规范，描述流畅，质量较好。本书以电商网站中的用户行为数据作为数据源，系统地介绍了如何使用 Spark生态系统进行离线分析和实时分析的方法。全书共6章，分别讲解了项目概述、集群环境搭建、使用Flume实现数据采集、使用Hive构建数据仓库、使用Spark进行数据分析以及使用FineBI实现数据可视化。本书有较高的知识性、科学性和实用性，出版价值较高。本书附有配套视频、教学PPT、教学设计等资源，同时，为了帮助初学者更好地学习本书中的内容，还提供了在线答疑，欢迎读者关注。

第1章项目概述1
1.1项目需求和目标1
1.2预备知识2
1.3项目架构3
1.4开发环境和工具3
1.5项目开发流程5
1.6本章小结6
第2章搭建集群环境7
2.1基础环境搭建7
2.1.1创建虚拟机7
2.1.2安装Linux操作系统15
2.1.3克隆虚拟机23
2.1.4配置虚拟机26
2.2安装JDK38
2.3部署Hadoop集群42
2.4部署Hive50
2.5部署Flume56
2.6部署ZooKeeper集群57
2.7部署Kafka集群61
2.8部署Spark64
2.9部署Doris集群67
2.10本章小结74
第3章数据采集75
3.1用户行为数据概述75
3.2模拟生成用户行为数据76
3.2.1生成历史用户行为数据77
3.2.2生成实时用户行为数据82
3.3配置采集方案83
3.4采集用户行为数据87
3.5本章小结91
第4章数据仓库92
4.1 数据仓库设计92
4.2构建数据仓库96
4.3向数据仓库加载数据100
4.3.1向ODS层的表加载数据101
4.3.2向DWD层的表加载数据103
4.4本章小结112
第5章数据分析113
5.1流量分析113
5.2商品分析119
5.3设备分析123
5.4推荐系统127
5.5地域分析133
5.6本章小结138
第6章数据可视化139
6.1Doris集成Hive139
6.2FineBI的安装与配置143
6.3实现数据可视化152
6.3.1新建数据集152
6.3.2实现流量分析的可视化158
6.3.3实现商品分析的可视化169
6.3.4实现设备分析的可视化175
6.3.5实现地域分析的可视化178
6.4本章小结184

前言

党的二十大报告强调了“加快发展数字经济，促进数字经济和实体经济深度融合，打造具有国际竞争力的数字产业集群”的重要性。随着云计算、移动互联网、电子商务、物联网和社交媒体的蓬勃发展，全球数据正以惊人的速度呈指数级增长，大数据已成为与物质资产和人力资本同等重要的战略资源。
然而，数据的价值不仅取决于数量，更取决于质量和分析能力。要从海量数据中挖掘出真正的价值，需要构建高效的数据采集、存储、处理和分析体系，为商业决策和社会发展提供有力支撑。
本书以电商网站用户行为数据为基础，系统讲解利用Spark生态系统进行离线分析和实时分析的方法，适合具备一定数据分析知识和大数据基础的读者学习。本书共6章，具体如下。
第1章带领读者初步了解项目背景、核心需求、技术架构及开发流程。
第2章详细介绍基于Linux操作系统搭建集群环境，包括Hadoop、Hive、Flume、Kafka、Spark等。
第3章讲解通过配置Flume的采集方案实现历史和实时用户行为数据的采集。党的二十大报告强调了“加快发展数字经济，促进数字经济和实体经济深度融合，打造具有国际竞争力的数字产业集群”的重要性。随着云计算、移动互联网、电子商务、物联网和社交媒体的蓬勃发展，全球数据正以惊人的速度呈指数级增长，大数据已成为与物质资产和人力资本同等重要的战略资源。 然而，数据的价值不仅取决于数量，更取决于质量和分析能力。要从海量数据中挖掘出真正的价值，需要构建高效的数据采集、存储、处理和分析体系，为商业决策和社会发展提供有力支撑。 本书以电商网站用户行为数据为基础，系统讲解利用Spark生态系统进行离线分析和实时分析的方法，适合具备一定数据分析知识和大数据基础的读者学习。本书共6章，具体如下。 第1章带领读者初步了解项目背景、核心需求、技术架构及开发流程。 第2章详细介绍基于Linux操作系统搭建集群环境，包括Hadoop、Hive、Flume、Kafka、Spark等。 第3章讲解通过配置Flume的采集方案实现历史和实时用户行为数据的采集。 第4章讲解基于Hive构建数据仓库。 第5章讲解运用Spark SQL、Structured Streaming等组件对用户行为数据进行离线与实时分析。 第6章讲解在FineBI中通过Doris获取Hive的数据进行数据可视化。 在实践的过程中，读者可能会遇到各种问题，这是正常的。建议读者遇到问题时不要轻易放弃，而要积极思考，梳理思路，分析问题的原因和解决方案，并在问题解决后总结经验教训，避免重复错误。 本书配套服务 为了提升您的学习或教学体验，我们精心为本书配备了丰富的数字化资源和服务，包括在线答疑、教学大纲、教学设计、教学PPT、测试题、源代码等。通过这些配套资源和服务，我们希望让您的学习或教学变得更加高效。请扫描下方二维码获取本书配套资源和服务。致谢 本书的编写和整理工作由江苏传智播客教育科技股份有限公司完成，全体参编人员在编写过程中付出了辛勤的劳动，除此之外还有很多试读人员参与了本书的试读工作，并给出了宝贵的建议，在此向大家表示由衷的感谢。 意见反馈 本书难免有不妥之处，欢迎读者提出宝贵意见。读者在阅读本书时，如发现任何问题或不认同之处，可以通过电子邮箱与编者联系。请发送电子邮件至itcast_book@vip.sina.com。 传智教育黑马程序员 2025年1月于北京

显示全部信息

下载地址

立即下载

（解压密码：www.teccses.org）

SPARK项目实训(PYTHON版)

内容简介

本书特色

目录

前言

下载地址

Recommended For You

Search 书名作者

Guess You Like

内容简介

本书特色

目录

前言

下载地址

Recommended For You

Search 书名 作者

Guess You Like

Search 书名作者