
作者:张晓主编
页数:272页
出版社:西安电子科技大学出版社
出版日期:2020
ISBN:9787560656670
电子书格式:pdf/epub/txt
内容简介
本书分八章, 第一章大数据基础, 简要介绍了大数据的概念, 大数据处理的过程和涉及的不同方面, 以及使用Python解决大数据问题的优势。第二章Python环境的准备, 介绍如何安装和准备Python编程环境。第三章大数据获取, 介绍获取数据的方法。第四章大数据存储, 介绍数据存储和使用的方法。第五章大数据的数学基础, 介绍如何使用NumPy和pandas操作数组, 矩阵, 以及使用其中的随机数功能。第六章数据预处理, 介绍数据预处理的概念。第七章 数据挖掘与分析, 介绍数据挖掘的常见模型, 介绍利用scikit-learn进行有监督分类, 回归预测, 以及聚类分析的方法。第八章大数据可视化, 介绍数据可视化基础。
目录
1.1 什么是大数据 1
1.2 大数据处理涉及哪些方面 3
1.3 为什么用Python解决大数据的问题 5
1.4 关于编程的注意事项 7
练习题 7
第2章 Python环境的准备 8
2.1 Python环境的准备 8
2.1.1 Python 8
2.1.2 Anaconda 10
2.2 集成开发环境 12
2.2.1 PyCharm 12
2.2.2 Spyder 15
2.2.3 IPython和Jupyter 18
2.3 包的管理和维护 19
2.3.1 pip 20
2.3.2 conda和Anaconda 22
2.4 大数据处理常用的扩展包 26
2.4.1 NumPy 26
2.4.2 Pandas 26
2.4.3 Matplotlib 27
2.4.4 SciPy 27
2.4.5 scikit-learn 28
练习题 28
第3章 大数据获取 29
3.1 如何获取数据 29
3.2 HTML的基础知识 30
3.2.1 HTML页面的获取与显示 30
3.2.2 单次请求与响应 32
3.2.3 HTML网页内容和结构 34
3.3 HTML页面的解析 36
3.3.1 使用正则表达式提取信息 36
3.3.2 使用XPath提取信息 44
3.3.3 使用BeautifulSoup提取信息 47
3.4 页面的获取 59
3.4.1 使用urllib 60
3.4.2 使用requests库获取网页 67
3.4.3 使用selenium获取网页 74
3.4.4 网页抓取面临的问题 79
3.5 Python爬虫框架Scrapy 82
练习题 87
第4章 大数据存储 90
4.1 文件存储 91
4.1.1 CSV 92
4.1.2 XML 97
4.1.3 JSON 103
4.1.4 Excel 108
4.2 数据库存储 110
4.2.1 关系型数据库通用流程 110
4.2.2 SQLite关系型数据库 113
4.2.3 MySQL关系型数据库 118
4.2.4 NoSQL数据库 125
练习题 129
第5章 大数据的数学基础 132
5.1 基本的数据结构和运算 132
5.1.1 数组对象的创建与属性 132
5.1.2 数组对象的元素级运算 138
5.2 矩阵运算 141
5.2.1 数组的合并、拆分及切片 141
5.2.2 矩阵的乘积与线性代数 144
5.3 统计与概率计算 150
5.4 随机数生成 153
练习题 157
第6章 数据预处理 158
6.1 数据清洗 158
6.1.1 缺失值处理 158
6.1.2 噪声数据处理 163
6.1.3 数据错误发现与修复 167
6.2 数据集成 167
6.3 数据转换 176
6.3.1 z-score规范化 177
6.3.2 最大最小规范化 182
6.3.3 属性转换 184
6.4 数据归约 186
练习题 187
第7章 数据挖掘与分析 189
7.1 模型选择与验证 189
7.1.1 模型选择 189
7.1.2 模型验证 190
7.2 分类算法 192
7.2.1 分类学习的性能评估 193
7.2.2 逻辑回归 197
7.2.3 支持向量机 201
7.2.4 朴素贝叶斯 204
7.2.5 决策树 207
7.2.6 实例分析 211
7.3 回归预测 215
7.3.1 回归学习的性能评估 215
7.3.2 线性回归 216
7.3.3 支持向量机(回归) 217
7.3.4 等式回归 218
7.3.5 决策树(回归) 218
7.3.6 实例分析 219
7.4 聚类分析 222
7.4.1 基于距离的聚类 223
7.4.2 基于密度的聚类算法 225
7.4.3 基于层次的聚类算法 227
7.4.4 聚类的性能评价 228
7.4.5 实例分析 231
7.5 主成分分析 232
练习题 232
第8章 大数据可视化 235
8.1 数据可视化基础 235
8.2 使用Matplotlib绘图 239
8.2.1 准备环境 239
8.2.2 图表相关的术语 240
8.3 使用Matplotlib绘制常见图表 242
8.3.1 散点图 242
8.3.2 折线图 246
8.3.3 条形图 248
8.3.4 直方图 252
8.3.5 面积图 253
8.3.6 饼图 254
8.3.7 箱形图 256
8.4 进阶功能 258
8.4.1 子图 258
8.4.2 中文显示 262
8.4.3 组合图形与标注 264
8.5 如何画出更好的图 267
练习题 267
参考文献 271















