作者:张春福 白婧 张良均 范林元 吴建平 著
页数:394
出版社:机械工业出版社
出版日期:2025
ISBN:9787111764793
电子书格式:pdf/epub/txt
网盘下载地址:下载PYTHON数据分析与挖掘实战 第3版
内容简介
内容简介
本书是Python数据分析与挖掘领域的公认的事实标准,前两版销售超过15万册,被国内100余所院校采用为教材,同时也被广大数据科学工作者奉为经典。
本书以真实项目案例为驱动,以真实的行业应用为依托,帮助读者快速掌握数据分析与挖掘的相关技术、流程与方法。本书精选了7个经典实战案例,涵盖了房地产、零售、互联网等多个领域,将Python编程知识、数据分析与挖掘知识和行业知识融合,让读者在实践中快速地掌握针对不同行业的数据挖掘方法。
本书不仅适合零基础的读者自学,还适合作为相关专业的教材。为了帮助读者更加高效地掌握本书的内容,本书提供了以下附加价值:
(1)上机环境:提供相关工具的环境配置文件,省去配置环境的烦琐操作,方便省心。
(2)数据文件:提供各个案例配套的数据文件,开箱即用,增强实操性。
(3)程序代码:提供书中代码的电子文件,代码导入环境即可运行,学习效果立竿见影。
(4)教学课件:提供配套的PPT课件,使用本书作为教材的老师可以申请,节省备课时间。
通过学习本书,读者可以理解数据分析与挖掘的原理,迅速掌握大数据技术的相关操作,为后续数据分析、数据挖掘、深度学习的实践打下良好的技术基础。
作者简介
资深大数据挖掘专家和模式识别专家,高级信息项目管理师。10余年大数据挖掘应用、咨询和培训经验。为电信、电力、政府、互联网、生产制造、零售、银行、生物、化工、医药等多个行业上百家大型企业提供过数据挖掘应用与咨询服务,实践经验非常丰富。精通Java EE企业级应用开发,是华南师范大学、中南财经政法大学、广东工业大学、西安理工大学、广西科技大学、重庆交通大学、桂林电子科技大学等校外硕导。
本书特色
(1)作者背景权威:泰迪智能科技股份有限公司董事长,华南师范大学、中南财经政法大学等30余所高校兼职教授或硕导。
(2)作者经验丰富:在大数据挖掘与分析领域有10余年工程实践、教学和创办企业经验,承担国家级项目1项,省部级项目4项;荣获中国产学研合作促进奖、数字信访重大突破奖、南方电网发明专利奖、省科技进步奖、省教学成果奖等10余项省部级奖项。
(3)公认经典著作:院校师生和数据科学工作者公认的数据挖掘经典著作,是该领域的事实标准。
(4)畅销书全新升级:前2版销售超过15万册,被国内100余所院校采用为教材,好评如潮。
(5)配套资源丰富:提供数据文件、程序源码、教学课件、教学大纲等各种资源,便于读者自学和教学。
目录
目 录 Contents
前言
基础篇
第1章 数据挖掘基础2
1.1 某知名连锁餐饮企业的困惑2
1.2 从餐饮服务到数据挖掘4
1.3 数据挖掘的基本任务4
1.4 数据挖掘的建模过程5
1.4.1 目标定义5
1.4.2 数据采集6
1.4.3 数据探索7
1.4.4 数据预处理8
1.4.5 挖掘建模8
1.4.6 模型评价8
1.5 常用的数据挖掘建模工具8
1.6 小结10
第2章 Python数据分析简介11
2.1 搭建Python开发平台12
2.1.1 需要考虑的问题12
2.1.2 基础平台的搭建13
2.2 Python使用入门14
2.2.1 运行方式14
2.2.2 基本命令15
2.2.3 数据结构18
2.2.4 库的导入与添加23
2.3 Python数据分析工具25
2.3.1 NumPy26
2.3.2 SciPy27
2.3.3 Matplotlib28
2.3.4 pandas29
2.3.5 StatsModels31
2.3.6 scikit-learn31
2.3.7 Keras33
2.3.8 Gensim35
2.3.9 TensorFlow35
2.3.10 PyTorch39
2.3.11 PaddlePaddle42
2.3.12 XGBoost45
2.4 配套附件使用设置47
2.5 小结47
第3章 数据探索48
3.1 数据质量分析48
3.1.1 缺失值分析49
3.1.2 异常值分析49
3.1.3 一致性分析53
3.2 数据特征分析53
3.2.1 分布分析53
3.2.2 对比分析58
3.2.3 统计量分析60
3.2.4 周期性分析63
3.2.5 贡献度分析65
3.2.6 相关性分析67
3.3 Python的主要数据探索函数71
3.3.1 基本统计特征函数71
3.3.2 拓展统计特征函数75
3.3.3 统计绘图函数76
3.4 小结83
第4章 数据预处理84
4.1 数据清洗84
4.1.1 缺失值处理84
4.1.2 异常值处理89
4.1.3 重复值处理89
4.2 数据集成91
4.2.1 实体识别91
4.2.2 冗余属性识别91
4.3 数据变换92
4.3.1 简单函数变换92
4.3.2 数据规范化92
4.3.3 连续属性离散化95
4.3.4 属性构造97
4.3.5 小波变换98
4.4 数据归约101
4.4.1 属性归约101
4.4.2 数值归约106
4.5 Python的主要数据预处理函数109
4.6 小结111
第5章 挖掘建模113
5.1 分类与预测113
5.1.1 实现过程114
5.1.2 常用的分类与预测算法114
5.1.3 回归分析115
5.1.4 决策树119
5.1.5 人工神经网络126
5.1.6 分类与预测算法评价131
5.1.7 Python的分类预测模型136
5.2 聚类分析136
5.2.1 常用的聚类分析算法137
5.2.2 k均值聚类算法138
5.2.3 聚类分析算法评价143
5.2.4 Python的主要聚类分析算法144
5.3 关联规则146
5.3.1 常用的关联规则算法147
5.3.2 Apriori算法147
5.4 时序模式153
5.4.1 时间序列算法153
5.4.2 时间序列的预处理154
5.4.3 平稳时间序列分析156
5.4.4 非平稳时间序列分析159
5.4.5 Python的主要时序模式算法167
5.5 离群点检测170
5.5.1 离群点的成因及类型170
5.5.2 离群点检测方法171
5.5.3 基于统计模型的离群点
检测方法172
5.5.4 基于聚类的离群点检测方法174
5.6 小结177
实战篇
第6章 房屋租金影响因素分析
与预测180
6.1 背景与挖掘目标180
6.2 分析方法与过程181
6.2.1 数据预处理181
6.2.2 数据探索190
6.2.3 模型构建201
6.3 上机实验207
6.4 拓展思考208
6.5 小结209
第7章 商超客户价值分析210
7.1 背景与挖掘目标210
7.2 分析方法与过程211
7.2.1 数据探索与预处理212
7.2.2 模型构建及结果分析228
7.3 上机实验238
7.4 拓展思考239
7.5 小结240
第8章 商品零售购物篮分析241
8.1 背景与挖掘目标241
8.2 分析方法与过程242
8.2.1 数据探索分析243
8.2.2 数据预处理249
8.2.3 模型构建249
8.3 上机实验255
8.4 拓展思考256
8.5 小结256
第9章 基于水色图像的水质评价257
9.1 背景与挖掘目标257
9.2 分析方法与过程258
9.2.1 分析流程259
9.2.2 数据预处理259
9.2.3 模型构建263
9.2.4 水质评价264
9.3 上机实验265
9.4 拓展思考265
9.5 小结266
第10章 家用热水器用户行为
分析与事件识别267
10.1 背景与挖掘目标267
10.2 分析方法与过程268
10.2.1 数据探索分析269
10.2.2 数据预处理272
10.2.3 模型构建283
10.2.4 模型检验284
10.3 上机实验285
10.4 拓展思考287
10.5 小结288
第11章 电视产品个性化推荐289
11.1 背景与挖掘目标289
11.2 分析方法与过程290
11.2.1 分析流程291
11.2.2 数据预处理291
11.2.3 分析与建模306
11.2.4 模型评价310
11.3 上机实验313
11.4 拓展思考314
11.5 小结314
第12章 天问一号事件中的网民
评论情感分析315
12.1 背景与挖掘目标315
12.2 分析方法与过程316
12.2.1 分析流程316
12.2.2 数据说明317
12.2.3 数据探索318
12.2.4 文本预处理323
12.2.5 绘制词云图327
12.2.6 使用朴素贝叶斯构建
情感分析模型331
12.2.7 模型评价338
12.2.8 模型优化340
12.3 上机实验344
12.4 拓展思考345
12.5 小结345
提高篇
第13章 基于TipDM大数据挖掘
建模平台实现商超客户
价值分析348
13.1 平台简介348
13.1.1 “共享库”模块350
13.1.2 “数据连接”模块350
13.1.3 “数据集”模块350
13.1.4 “我的工程”模块351
13.1.5 “个人组件”模块354
13.2 快速构建数据挖掘工程355
13.2.1 数据源配置355
13.2.2 数据探索与处理360
13.2.3 模型构建与结果分析379
13.3 小结393
前言
Preface 前 言
为什么要写本书
数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,已成为企业保持竞争力的必要方法。
在云时代和数字经济时代背景下,大数据技术的重要性与日俱增。大数据已经成为各行各业不可或缺的生产要素,其应用预示着生产率增长和消费者剩余的新浪潮。大数据分析技术不仅可以帮助企业高效地获取、管理和处理海量数据,还可以为企业的决策提供积极的辅助。作为数据存储和挖掘分析的前沿技术,大数据分析在物联网、云计算、移动互联网等战略性新兴产业中得到了广泛应用。大数据在国内的商业价值已经显现,具有实践经验的大数据分析人才已成为企业争夺的焦点。
为了满足不断增长的大数据分析人才需求,越来越多的大学开始开设大数据分析课程,将其作为数学与统计学专业的重要课程。该课程采用理论与实践相结合的教学方式,为学生提供一个真实的学习和实践环境,让他们能够更快地掌握数据挖掘知识,积累职业经验,以便为未来的数字经济和新质生产力的发展做好准备。