技术教育社区
www.teccses.org

数据挖掘原理.方法及python应用实践教程

封面

作者:蒋国银等

页数:252

出版社:科学出版社

出版日期:2020

ISBN:9787030653543

电子书格式:pdf/epub/txt

内容简介

本书系统讲授数据挖掘的原理、主要方法及其Python实现,共分三部分:部分包含~2章,介绍数据挖掘的基本概念、流程和数据预处理;第二部分包含第3~11章,介绍经典的分类算法(包括朴素贝叶斯分类器、决策树、k-近邻、支持向量机等)、经典的聚类分析、关联分析、人工神经网络和Web挖掘等方法;第三部包含2~14章,共有3个综合案例,包括泰坦尼克号生存数据分析、心脏病预测分析和旅游评论倾向性分析。

目录

目录

第1章 绪论 1

1.1 数据挖掘的含义 1

1.2 数据挖掘、机器学习与人工智能 2

1.3 数据挖掘基本任务 4

1.3.1 分类与预测 4

1.3.2 聚类分析 6

1.3.3 关联分析 7

1.3.4 异常检测 7

1.3.5 其他任务 8

1.4 数据挖掘流程 9

1.4.1 明确目标 9

1.4.2 数据收集 9

1.4.3 数据探索 10

1.4.4 数据预处理 10

1.4.5 挖掘建模 10

1.4.6 模型评价 11

1.5 数据挖掘常用工具及其比较 11

1.5.1 Python 11

1.5.2 R 11

1.5.3 Weka 12

1.5.4 SPSS Modeler 12

1.5.5 RapidMiner 12

1.6 Python的安装及使用 13

1.6.1 WinPython 13

1.6.2 Anaconda 14

1.6.3 集成开发环境 15

1.7 本章小结 16

思考题 17

习题 17

本章参考文献 17

第2章 数据预处理 18

2.1 概述 18

2.2 缺失值的处理 18

2.2.1 缺失值的查找 19

2.2.2 缺失值的删除 20

2.2.3 缺失值的填充 22

2.3 异常值的处理 23

2.4 数据的标准化 25

2.4.1 Z-score标准化 25

2.4.2 将特征变量缩放到指定范围 27

2.4.3 考虑异常值的标准化 28

2.5 数据的正则化 28

2.6 自定义转换器 30

2.7 生成多项式和交互特征 30

2.8 本章小结 31

思考题 32

习题 32

第3章 朴素贝叶斯分类器 33

3.1 朴素贝叶斯分类算法相关的统计学知识 33

3.2 极大似然估计 34

3.3 贝叶斯估计 36

3.4 朴素贝叶斯分类算法的Python实现 37

3.5 本章小结 40

思考题 41

习题 41

本章参考文献 41

第4章 决策树 42

4.1 决策树分类算法概述 42

4.2 熵与信息增益 43

4.3 ID3算法 46

4.4 C4.5算法 47

4.5 CART算法 49

4.6 过拟合与决策树剪枝 52

4.6.1 过拟合 52

4.6.2 决策树剪枝 52

4.7 分类模型的评估 54

4.7.1 混淆矩阵 54

4.7.2 ROC曲线 57

4.8 实例:决策树的Python实现 59

4.9 本章小结 62

4.9.1 决策树ID3、C4.5和CART算法比较 62

4.9.2 决策树算法优缺点 63

思考题 63

习题 63

本章参考文献 64

第5章 集成学习 65

5.1 集成学习的思想 65

5.2 集成学习模型:结合策略 67

5.2.1 集成回归模型的结合策略 67

5.2.2 集成分类模型的结合策略 68

5.3 Bagging方法与随机森林 68

5.3.1 Bagging方法 68

5.3.2 随机森林 69

5.4 Boosting方法与Adaboost 70

5.4.1 Boosting方法 70

5.4.2 Adaboost 71

5.5 集成学习模型的Python实现 72

5.6 实例:信用卡还贷情况预测 72

5.7 本章小结 74

思考题 74

习题 75

本章参考文献 75

第6章 k-近邻 76

6.1 数据在不同维度上分布的分类表现 76

6.2 算法原理 78

6.3 相似度与距离 79

6.3.1 二维向量空间的KNN分类 79

6.3.2 多维向量空间的KNN分类 80

6.4 k值的选择 83

6.5 分类决策规则 84

6.6 KNN算法 84

6.7 kd树 85

6.8 实例:鸢尾花分类 88

思考题 89

习题 89

本章参考文献 89

第7章 支持向量机 90

7.1 SVM算法介绍 90

7.2 线性可分支持向量机 91

7.2.1 原始问题 91

7.2.2 对偶问题 95

7.2.3 算法过程 97

7.3 线性不可分支持向量机 97

7.3.1 原始问题 98

7.3.2 对偶问题 98

7.3.3 算法过程 99

7.4 非线性支持向量机 100

7.4.1 对偶问题 100

7.4.2 算法过程 101

7.5 实例:鸢尾花分类 102

思考题 103

习题 103

本章参考文献 103

第8章 人工神经网络 105

8.1 神经网络的基本概念 105

8.2 神经网络的发展过程 107

8.2.1 神经元 107

8.2.2 单层神经网络(感知器) 109

8.2.3 两层神经网络(多层感知器) 110

8.2.4 神经网络训练(反向传播) 113

8.3 实例:mnist手写数字识别 118

思考题 119

习题 119

本章参考文献 120

第9章 聚类分析 121

9.1 聚类问题 121

9.1.1 聚类问题的定义 121

9.1.2 聚类的依据:距离的定义 122

9.2 基于原型的聚类方法:k-均值聚类 123

9.2.1 k-均值聚类的原理和过程 123

9.2.2 k-均值聚类的特点 124

9.3 基于密度的聚类方法:DBSCAN 125

9.3.1 DBSCAN聚类方法的原理 126

9.3.2 DBSCAN 聚类方法的特点 127

9.4 基于层次的聚类方法:AGNES 127

9.4.1 AGNES 聚类方法的原理 128

9.4.2 AGNES聚类方法的特点 130

9.5 聚类结果的评价 130

9.6 使用Python进行聚类分析 132

9.7 实例:城市发展潜力评估 133

9.8 本章小结 134

思考题 135

习题 135

本章参考文献 135

第10章 关联分析 137

10.1 关联分析的基本概念 137

10.1.1 问题定义 137

10.1.2 关联分析的基本步骤 139

10.2 Apriori 关联分析算法 140

10.2.1 寻找频繁项集 140

10.2.2 生成关联规则 141

10.3 FP增长算法 142

10.3.1 生成FP增长树 142

10.3.2 寻找频繁项集 144

10.4 使用Python进行关联分析 145

10.5 实例:电影观看记录信息挖掘 145

10.6 本章小结 146

思考题 147

习题 147

本章参考文献 147

第11章 Web挖掘 148

11.1 Web挖掘概述 148

11.1.1 Web挖掘的概念 148

11.1.2 Web挖掘的特点 148

11.1.3 Web挖掘的分类 149

11.2 Web挖掘技术实现 150

11.2.1 关联规则挖掘技术 150

11.2.2 序列模式挖掘技术 152

11.2.3 分类挖掘技术 154

11.2.4 聚类挖掘技术 155

11.3 Web数据爬取 156

11.3.1 Web数据爬虫简介 157

11.3.2 Web数据处理过程 159

11.3.3 Web爬虫性能及策略 160

11.4 Web挖掘评价标准 161

11.4.1 查准率与查全率 161

11.4.2 F1值 162

11.4.3 其他评价标准 162

11.5 实例:Web日志挖掘 164

11.6 本 章 小 结 172

思考题 172

习题 172

本章参考文献 172

第12章 应用案例一:泰坦尼克号生存数据分析 174

12.1 案例背景及分析思路 174

12.2 数 据 解 读 174

12.3 数据预处理 175

12.3.1 查看数据集 175

12.3.2 缺失值的填充 177

12.4 描述性统计分析 178

12.4.1 性别与生存率之间的关系 178

12.4.2 船舱等级、生存率与性别三者之间的关系 179

12.4.3 年龄与生存率之间的关系 180

12.4.4 登船港口与生存率之间的关系 181

12.4.5 家庭大小与生存率之间的关系 183

12.5 特征工程 186

12.6 模型构建与评估 190

12.6.1 随机森林 191

12.6.2 支持向量机 191

12.6.3 朴素贝叶斯模型 192

12.7 本章小结 193

思考题 193

习题 193

第13章 应用案例二:心脏病预测分析 194

13.1 案例背景及分析思路 194

13.2 数据预处理 194

13.2.1 数据集的含义 195

13.2.2 重复值的删除 196

13.2.3 缺失值处理 197

13.3 数据集的特征分析 198

13.4 构建模型 199

13.4.1 数据整理 199

13.4.2 KNN 202

13.4.3 随机森林 204

13.4.4 logistic回归 205

13.5 模型评估 206

13.5.1 KNN 207

13.5.2 随机森林 209

13.5.3 logistic回归 211

13.6 本章小结 212

思考题 212

习题 213

第14章 应用案例三:旅游评论倾向性分析 214

14.1 案例背景及分析思路 214

14.1.1 案例背景 214

14.1.2 数据分析思路与方法 214

14.2 数据分析准备工作 216

14.2.1 数据爬取 216

14.2.2 数据的预处理 218

14.2.3 描述性分析 222

14.3 特征工程 224

14.3.1 人工特征 224

14.3.2 TF-IDF编码 225

14.3.3 Word2vec编码 227

14.4 基于传统分类器的景区评论倾向性分析 230

14.4.1 基于传统弱分类器的倾向性分析 230

14.4.2 基于随机森林的倾向性分析 231

14.4.3 基于提升树的倾向性分析 232

14.5 基于LSTM和FastText的景区评论倾向性分析 233

14.5.1 基于自建词典的LSTM情感分析模型 233

14.5.2 基于FastText的文本标签分类模型 235

14.5.3 综合FastText和LSTM的情感分析模型 237

14.6 模型评估 238

14.7 本章小结 239

思考题 240

习题 240

本章参考文献 240

下载地址

立即下载

(解压密码:www.teccses.org)

Article Title:《数据挖掘原理.方法及python应用实践教程》
Article link:https://www.teccses.org/1210255.html