技术教育社区
www.teccses.org

大数据教程——数据分析原理和方法

封面

作者:林正炎 等

页数:396

出版社:科学出版社

出版日期:2021

ISBN:9787030632982

电子书格式:pdf/epub/txt

内容简介

大数据正在开辟一个人类的新纪元。它已经渗透到当今社会活动的各个方面,它的应用开发已经成为国家的重要战略。大数据的理论、方法涉及到很多领域,包括数理统计、计算科学、应用数学等等,而且很多都尚处在不断完善、发展之中。本书试图较全面地介绍大数据技术的基本方法,包括以统计模型为主的各类数据模型以及他们的计算方法以及它们在各个不同领域,如人工智能,中的应用。这些不仅是大数据专业的学生和科技工作者必须具备的基本知识,也对攻读与数据有关的各类专业的学生、从事与数据有关的各行各业的科技工作者有很大的参考价值。

目录

目录

前言

第1章 引言 1

1.1 什么是大数据 1

1.1.1 大数据概论 1

1.1.2 大数据的特点 1

1.1.3 大数据带来的利益 2

1.1.4 大数据的类型 3

1.2 数据分析过程 4

1.3 专业领域知识 4

1.3.1 统计学 5

1.3.2 数据挖掘 5

1.3.3 机器学习 5

1.3.4 人工智能 6

1.3.5 数学 6

1.4 数据科学家做什么? 6

1.4.1 学术界 6

1.4.2 工业界 6

第2章 大数据的预处理、存储和计算 8

2.1 数据的预处理 8

2.1.1 数据源 9

2.1.2 数据格式 9

2.1.3 数据形式 10

2.2 数据清洗 11

2.2.1 数据清洗的系统框架 12

2.2.2 待清洗数据的主要类型 12

2.2.3 数据检测算法和清洗算法 13

2.2.4 数据清洗评估 16

2.3 云存储和云计算最 17

习题2 18

第3章 数据可视化 20

3.1 基本原理 20

3.2 实现过程 20

3.3 可视化工具 21

3.4 数据可视化方法 21

第4章 回归与分类(一) 25

4.1 线性回归 25

4.1.1 模型介绍 26

4.1.2 参数估计 28

4.1.3 假设检验 32

4.1.4 模型评价与诊断 35

4.1.5 预测 39

4.2 线性回归的推广最 40

4.2.1 多项式回归 41

4.2.2 样条回归 43

4.2.3 局部回归 47

4.2.4 广义加性模型 52

4.2.5 回归性能的度量 54

4.3 时间序列分析 57

4.3.1 AR(p)模型 57

4.3.2 MA(q)模型 60

4.3.3 ARMA(p,q)模型 63

4.4 逻辑斯谛回归 68

4.5 判别分类 72

4.5.1 线性判别分析 72

4.5.2 二次判别分析 75

4.6 k最近邻分类 76

习题4 78

第5章 回归与分类(二) 81

5.1 决策树 81

5.1.1 回归树 82

5.1.2 分类树 88

5.1.3 决策树的优缺点 91

5.2 Bagging分类 91

5.3 随机森林分类 96

5.4 AdaBoost分类 98

5.5 支持向量机分类 103

5.5.1 最大间隔分类器 103

5.5.2 支持向量分类器 109

5.5.3 支持向量机 113

5.5.4 多分类的支持向量机 118

习题5 118

第6章 聚类及相关数据分析 120

6.1 聚类分析 120

6.1.1 距离的定义 120

6.1.2 系统聚类法 127

6.1.3 K{均值聚类 130

6.2 文本分析 134

6.2.1 基本概念 134

6.2.2 处理过程和任务 136

6.2.3 特征处理 138

6.2.4 文本表示模型 139

6.2.5 文本分类与文本聚类 143

6.2.6 应用实例 144

6.2.7 分布式文本挖掘 147

6.3 网络图形描述和模型最 148

6.3.1 图的基本概念 148

6.3.2 复杂网络的统计特征 149

6.3.3 小世界现象 151

6.3.4 模型介绍 154

6.4 网络数据分析和图形模型 157

6.4.1 网络数据概述 157

6.4.2 网络数据收集 158

6.4.3 网络数据分析 160

6.5 关联规则和推荐系统 164

6.5.1 关联规则 164

6.5.2 推荐系统 166

6.5.3 基于内容的推荐系统设计过程 169

习题6 170

第7章 高维统计中的变量选择 173

7.1 经典降维方法 173

7.1.1 主成分分析 173

7.1.2 因子分析 178

7.2 Lasso模型及其变形 185

7.2.1 Lasso基本方法 185

7.2.2 Lasso方法的拓展 188

7.2.3 其他降维方法 196

7.3 流形降维方法最 204

7.3.1 核主成分分析 205

7.3.2 局部线性嵌入 206

7.3.3 多维缩放 208

7.3.4 Isomap 209

7.4 非负矩阵分解最 210

7.4.1 基本原理 210

7.4.2 NMF的求解方法 211

7.4.3 应用 212

7.5 自编码器 212

7.5.1 基本原理 213

7.5.2 可视化自编码器 215

7.6 t-SNE 216

7.6.1 算法 216

7.6.2 应用 217

7.7 正则化方法 218

7.7.1 多项式拟合 218

7.7.2 过拟合和欠拟合 221

7.7.3 L2正则 222

7.7.4 L1正则 224

7.7.5 缩减参数的选取 225

习题7 225

第8章 最大期望算法(EM算法) 227

8.1 预备知识 228

8.2 算法描述 229

8.3 算法导出最 230

8.4 EM算法的应用 232

8.4.1 简单实例——抛投硬币实验 232

8.4.2 男女生身高实例——混合高斯模型 235

习题8 240

第9章 贝叶斯方法 242

9.1 引论 242

9.2 贝叶斯统计推断 243

9.2.1 一个例子 243

9.2.2 确定先验分布 244

9.2.3 点估计 245

9.2.4 区间估计 245

9.2.5 假设检验 246

9.3 贝叶斯方法在变量选择中的应用 246

9.3.1 贝叶斯模型选择 246

9.3.2 采样 248

9.3.3 贝叶斯变量选择 249

习题9 250

第10章 隐马尔可夫模型 252

10.1 隐马尔可夫模型的基本概念 252

10.1.1 马尔可夫链 252

10.1.2 隐马尔可夫模型 253

10.1.3 观测序列的生成过程 257

10.1.4 隐马尔可夫模型的三个基本问题 257

10.2 概率计算算法 258

10.2.1 前向算法 258

10.2.2 后向算法 260

10.2.3 一些概率与期望值的计算 261

10.3 学习算法 262

10.3.1 监督学习方法 262

10.3.2 Baum-Welch算法 263

10.3.3 Baum-Welch模型参数估计 265

10.4 预测算法 266

10.4.1 近似算法 266

10.4.2 维特比算法 267

习题10 271

第11章 神经网络与深度学习 272

11.1 引言 272

11.2 神经网络 272

11.2.1 简介 272

11.2.2 神经元 274

11.2.3 感知器 275

11.2.4 神经网络模型 276

11.2.5 激活函数 278

11.2.6 代价函数 280

11.2.7 梯度下降法 281

11.2.8 反向传播算法 283

11.2.9 梯度检验 285

11.3 深度神经网络 285

11.4 卷积神经网络 286

11.4.1 卷积 287

11.4.2 卷积层 288

11.4.3 池化层 291

11.4.4 卷积神经网络的网络架构 292

11.4.5 权值的训练 293

11.4.6 LeNet-5卷积神经网络 295

11.5 循环神经网络 297

11.5.1 简单循环神经网络 297

11.5.2 基于时间的反向传播算法 299

11.5.3 梯度消失和梯度爆炸 302

11.5.4 长短时记忆网络最 302

11.5.5 门限循环单元最 304

11.6 强化学习最 305

11.6.1 什么是强化学习? 305

11.6.2 强化学习的不同的环境 307

11.6.3 强化学习的几个有代表性的算法及理论基础 307

11.6.4 强化学习的相关应用 308

11.6.5 强化学习的平台 308

11.6.6 强化学习的展望 309

11.7 深度学习在人工智能中的应用 309

11.7.1 深度学习在无人驾驶汽车领域的应用 309

11.7.2 深度学习在自然语言处理领域的应用 311

11.7.3 深度学习在医疗健康领域的应用 314

习题11 315

第12章 案例分析 316

12.1 金融数据分析案例 316

12.2 高维稀疏单细胞RNA测序数据的聚类研究 321

12.2.1 背景介绍 321

12.2.2 研究目标和内容 322

12.2.3 数据标准化 323

12.2.4 基于隐变量标准化两阶段单细胞无监督类 325

12.3 手写数字识别 327

12.3.1 MNIST数据的说明和导入 327

12.3.2 MNIST手写数字神经网络识别 330

参考文献 337

附录A R语言简介 344

A.1 特点 344

A.2 安装和运行 344

A.3 帮助命令和帮助工具 345

A.4 RStudio 346

A.5 R编程要点 347

附录B Python语言介绍 356

B.1 基础介绍 356

B.2 非基础部分 367

B.3 机器学习常用module介绍 375

索引 379

彩图

下载地址

立即下载

(解压密码:www.teccses.org)

Article Title:《大数据教程——数据分析原理和方法》
Article link:https://www.teccses.org/1229151.html