
作者:陈静、杨美红、张虎、李娜、郭莹
页数:264
出版社:清华大学出版社
出版日期:2022
ISBN:9787302614524
电子书格式:pdf/epub/txt
内容简介
本书系统介绍了大数据综合应用实践的技术知识和项目案例。全书共4章,内容包括大数据综合应用概述、基于Python+MySQL+Kettle的点评网数据采集分析及可视化、基于Hive+MySQL+Spark的零售数据分析及可视化、基于Elasticsearch+Logstash+Kibana+Filebeat的日志收集分析及可视化。第1章概要介绍了大数据的技术和综合应用,第2~4章以项目案例为基础对大数据环境部署、技术知识、上机实践操作等进行了详细说明与分析。读者可参照书中的项目环境部署、项目技术知识、项目实践详解,通过系统的项目综合实践更好地学习大数据的关键技术,提高大数据技术的综合应用和实践能力。本书配有微课视频、教学课件、代码等教学资源。
本书可以作为高等院校计算机、大数据、电子信息、数学、网络空间安全等相关学科专业的大数据课程教材,也适合正在学习大数据技术的人员作为实践教材。
作者简介
杨美红,女,研究员,山东省计算中心主任、网络空间安全学院院长;山东省信息资源应用协会会长、山东计算机学会大数据与智能计算专业委员会副主任委员。先后主持或参与科技部中小企业基金、国家863项目、国家自然基金项目、山东省科技攻关、山东省自主创新工程专项、山东省电子发展基金等项目40余项,荣获山东省科技进步二等奖一项、三等奖三项。 陈静,副研究员,计算机应用技术博士,长期从事云计算、边缘计算、大数据等方面的研发工作。先后主持省部级项目3项,作为核心人员参与国家863计划、国家重点研发计划、省重点研发计划、省自主创新专项、省信息产业发展专项等10余项;获得山东省科技进步一等奖1项、二等奖2项,省高等学校科学技术三等奖1项,授权发明专利3项。
本书特色
围绕大数据综合应用,以实践项目为案例,介绍大数据环境部署、关键技术知识、上机实践操作等。
项目案例均提供项目简介、环境部署、技术知识、实践操作等详细内容。
配套教学课件、程序源码、扩展训练答案,微课视频。
目录
1.1大数据技术概述001
1.1.1大数据基本概念001
1.1.2大数据技术的发展历程001
1.1.3大数据的技术框架002
1.1.4大数据生态圈及处理工具003
1.1.5大数据技术的发展趋势006
1.2大数据综合应用概述007
1.2.1大数据产业007
1.2.2大数据的应用领域008
1.2.3大数据的典型应用及特征009
1.2.4大数据应用前景与展望011
1.3本章小结012
第2章基于Python+MySQL+Kettle的点评网数据采集分析及可视化013
2.1项目概述013
2.2项目环境部署014
2.2.1模拟点评网站的部署014
2.2.2项目实践环境部署020
2.3项目技术知识030
2.3.1网页解析030
2.3.2网络爬虫037
2.3.3数据清洗042
2.3.4数据统计分析与可视化045
2.4项目实践046
2.4.1点评网网页分析046
2.4.2Python爬取点评网数据050
2.4.3Kettle数据清洗064
2.4.4统计分析与PyEcharts可视化079
2.5项目小结090
2.6项目拓展训练090大数据综合应用实践
目录
第3章基于Hive+MySQL+Spark的零售数据分析及可视化091
3.1项目概述091
3.2项目环境部署092
3.2.1安装Java092
3.2.2安装Hadoop098
3.2.3安装MySQL102
3.2.4安装Hive107
3.2.5安装Sqoop113
3.2.6安装Spark115
3.2.7利用Echarts可视化117
3.3项目技术知识123
3.3.1Spark基本原理123
3.3.2Hive数据仓库130
3.3.3PySpark简介134
3.3.4Spark SQL概述137
3.3.5MLlib和关联分析138
3.4项目实践141
3.4.1基于Hive+MySQL+Sqoop的数据存储与传输142
3.4.2基于零售交易数据的Spark数据处理与分析150
3.4.3可视化展示161
3.5项目小结189
3.6项目拓展训练190
第4章基于Elasticsearch+Logstash+Kibana+Filebeat的日志收集分析及可视化191
4.1项目概述191
4.2项目环境部署192
4.2.1Elasticsearch安装193
4.2.2Logstash安装194
4.2.3Kibana安装195
4.2.4Filebeat安装195
4.2.5Kafka安装196
4.3项目技术知识198
4.3.1ELKF Stack数据处理工具198
4.3.2Beats轻量级日志采集器198
4.3.3Logstash日志分析过滤工具204
4.3.4Elasticsearch分布式日志搜索引擎213
4.3.5Kibana日志汇总、分析和搜索展示系统227
4.3.6Kafka分布式消息系统234
4.4项目实践235
4.4.1网约车平台日志数据收集236
4.4.2网约车平台日志数据传输和过滤238
4.4.3日志数据汇集及存储240
4.4.4日志数据分析及可视化展示240
4.5项目小结252
4.6项目拓展训练252
参考文献253















