
作者:陆红著
页数:151
出版社:中国财富出版社
出版日期:2017
ISBN:9787504764164
电子书格式:pdf/epub/txt
内容简介
作者开展大数据分析项目研究方法的总结和归纳,内容极基实用
作者简介
陆红,副教授,北京信息职业技术学院技术应用研究所所长,多年从事计算机领域研究,主要研究方向:大数据、人工智能、软件技术。主持多项省部级课题,其中一项获教育部科技成果奖。编写多部著作,发表多篇相关领域的学术论文。作为多个部委专家,主持完成多个部委信息化建设标准制定工作。主持完成多个部委信息化建设项目。
本书特色
本书围绕大数据分析方法,阐述了大数据采集方法,大数据清洗方法,详细介绍了大数据存储方法,大数据分布式计算方法,大数据分析模型构建方法,大数据分析模型检验方法,大数据分析模型优化方法。全书提供了大量的案例,对程序进行了详细的分析和解读。本书的实用价值较高,对从事大数据分析的科研人员、研发人员具有一定的借鉴参考作用。
目录
目录
1大数据采集处理方法1
11爬虫程序设计方案1
12爬虫程序实现方法5
13数据清洗20
2大数据存储方法27
21分布式文件系统存储大数据27
211HDFS体系结构27
212HDFS数据存储方式28
213HDFS读写方式28
22分布式数据库存储大数据32
221Hbase体系结构32
222配置Hbase33
223Hbase表操作38
224访问Hbase数据资源44
3大数据计算方法50
31分布式计算平台构建方法50
32分布式计算框架构建方法60
33分布式计算程序设计方法63
4大数据分析模型构建方法78
41准备训练数据78
42机器学习路径和算法设计方法82
43数据可视化辅助建模方法88
44构建大数据分析模型91
5大数据分析模型检验方法108
51回归诊断108
52交叉验证113
6大数据分析模型优化方法117
61Feature Scaling优化法117
62逐步回归优化法118
63PCA主成分分析优化方法120
64神经网络优化大数据分析模型127
参考文献151
1大数据采集处理方法1
11爬虫程序设计方案1
12爬虫程序实现方法5
13数据清洗20
2大数据存储方法27
21分布式文件系统存储大数据27
211HDFS体系结构27
212HDFS数据存储方式28
213HDFS读写方式28
22分布式数据库存储大数据32
221Hbase体系结构32
222配置Hbase33
223Hbase表操作38
224访问Hbase数据资源44
3大数据计算方法50
31分布式计算平台构建方法50
32分布式计算框架构建方法60
33分布式计算程序设计方法63
4大数据分析模型构建方法78
41准备训练数据78
42机器学习路径和算法设计方法82
43数据可视化辅助建模方法88
44构建大数据分析模型91
5大数据分析模型检验方法108
51回归诊断108
52交叉验证113
6大数据分析模型优化方法117
61Feature Scaling优化法117
62逐步回归优化法118
63PCA主成分分析优化方法120
64神经网络优化大数据分析模型127
参考文献151















