
作者:冯兴东
页数:126页
出版社:上海财经大学出版社
出版日期:2018
ISBN:9787564229696
电子书格式:pdf/epub/txt
内容简介
本书针对分布式统计计算这门课程。向学生介绍分布式计算的思想以及在统计学上的应用, 将统计学传统方法和分布式计算方法相结合, 通过不同的统计学问题来强化学生的分布式统计计算的编程能力和对统计计算的理解。
作者简介
冯兴东教授于2009年毕业于美国伊利洛伊大学香槟分校(University
of Illinois at Urbana-Champaign),获得统计学博士学位。之后在美国国家统计科学研究所(National Institute of Statistical Sciences)从事博士后研究工作,研究内容主要集中在蛋白质数据分析,该项研究属于和美国多个著名高校癌症研究实验室的联合合作项目。 2011年始任教于上海财经大学统计与管理学院。研究兴趣包括大数据统计计算、数据降维、分位数回归、稳健性统计以及在金融和生物数据的应用等等。冯兴东博士主持或参与多项国家自然科学基金项目;其多项研究成果发表于《The Annals of Applied Statistics》、《Biometrika》、《Journal of the American Statistical Association》、《The Annals of Statistics》等国际权威统计期刊上。
本书特色
人类各项科学技术的发展带来了海量数据,“大数据”的概念铺天盖地。统计学这一专注于数据分析的学科理应适应于这一时代的重大变革和发展。显然大数据带给统计学的冲击是全方面的,不只是局限于理论或者计算。国际上众多统计学家都在思考统计学在大数据时代应该扮演的角色。然而,提高统计学专业的学生相关计算机编程能力却是刻不容缓。在这一背景之下,上海财经大学统计与管理学院开设了专业统计学硕士“数据科学与商务统计”方向,力图增强相关硕士生从事大数据分析的计算能力以及分析商务数据(包括营销数据、信用数据等)的应用能力。在这一指导思想之下,上海财经大学统计与管理学院开设了一系列相关课程。本讲义就是针对该专业方向的《分布式统计计算》一课。这门课程向学生介绍分布式计算的思想以及在统计学上的应用,将统计学传统方法和分布式计算方法相结合,通过不同的统计学问题来强化学生的分布式统计计算的编程能力和对统计计算的理解。
目录
1Apache Spark简介1
1.1Apache Spark的历史与现状1
1.2安装和运行Apache Spark2
1.3Apache Spark编程简介5
1.3.1Scala语言5
1.3.2Spark编程11
1.4公共数据集14
2Breeze程序包15
2.1创建向量、矩阵及其简单计算15
2.2整行或整列的运算19
2.3常用数学计算20
2.4常用分布20
2.5基于Breeze包的分布式计算23
3随机模拟和统计推断24
3.1随机数的产生24
3.1.1逆累积分布函数法25
3.1.2拒绝法26
3.1.3案例: 从回归模型中模拟数据27
3.2EM优化31
3.2.1EM基本算法31
3.2.2收敛性分析31
3.2.3分布式EM算法32
3.2.4案例: 高斯混合模型33
4马尔科夫链蒙特卡洛37
4.1Metropolis睭astings算法38
4.2Slice取样法40
4.3Gibbs取样法41
5优化方法43
5.1交替方向乘子法43
5.1.1算法介绍43
5.1.2案例: 分位数回归分布式参数估计45
5.2数值计算方法50
5.2.1随机梯度下降算法51
5.2.2有限内存BFGS算法61
6自举法65
6.1自由自举法66
6.2子集合自举法68
7常用大数据统计学习方法71
7.1聚类分析71
7.1.1K组中心法72
7.1.2隐狄利克雷分配法74
7.1.3功效迭代聚类法77
7.2分类分析78
7.2.1Logistic回归79
7.2.2线性支持向量机79
7.2.3线性判别分析81
7.2.4决策树82
8数据降维87
8.1主成分分析87
8.2奇异值分解88
8.3案例89
8.3.1读取图片90
8.3.2处理图片91
8.3.3存储图片92
8.3.4提取主成分向量93
附录部分课程案例97
案例1基于EM算法的t分布参数估计97
案例2基于SCAD惩罚的线性回归分析115
参考文献124













