
作者:潘庆和,赵星驰编著
页数:256
出版社:电子工业出版社
出版日期:2016
ISBN:9787121298844
电子书格式:pdf/epub/txt
内容简介
如何在大数据时代获得实时的数据信息,分析挖掘、提取出有价值的信息,并以直观清晰的图形表示出关键的数量关系和概念,是一个值得研究的问题。本书通过数据抓取篇(如何获得数据信息)、数据分析篇(分析挖掘,提取出有价值的信息)、数据可视化篇(以直观清晰的图形表示出关键的数量关系和概念)详细描述数据抓取、分析、展示的整个流程,每一篇自成一体,可以单独学习掌握。
作者简介
2011年7月毕业于哈尔滨工业大学计算机科学与技术学院,计算机应用技术专业,获得工学博士学位。2011年8月至今,哈尔滨商业大学计算机与信息工程学院,计算机科学与技术专业教师,讲师,主教课程:本科专业课《操作系统》,《专业英语》,研究生《形式语言与自动机》,《大数据技术基础》。2014年获得哈尔滨商业大学优秀教师称号。
本书特色
如何在大数据时代获得实时的数据信息,分析挖掘、提取出有价值的信息,并以直观清晰的图形表示出关键的数量关系和概念,是一个值得研究的问题。本书通过数据抓取篇(如何获得数据信息)、数据分析篇(分析挖掘,提取出有价值的信息)、数据可视化篇(以直观清晰的图形表示出关键的数量关系和概念)详细描述数据抓取、分析、展示的整个流程,每一篇自成一体,可以单独学习掌握。
目录
目 录
第1章 Python基础1
1保薄Python安装1
1保病“沧皃ip 6
1保场∪绾尾榭窗镏7
1保础第一个程序10
1保怠∥募操作25
1保丁⊙环28
1保贰∫斐#常
1保浮≡组30
1保埂×斜恚常
1保保啊∽值洌常
1保保薄〖合38
1保保病∷婊数39目 录
第1章 Python基础1
1保薄Python安装1
1保病“沧皃ip 6
1保场∪绾尾榭窗镏7
1保础第一个程序10
1保怠∥募操作25
1保丁⊙环28
1保贰∫斐#常
1保浮≡组30
1保埂×斜恚常
1保保啊∽值洌常
1保保薄〖合38
1保保病∷婊数39
1保保场enumerate的使用40
1保保础〉诙个例子41
第2章 字符串解析46
2保薄〕S煤数46
2保病≌则表达式50
2保场BeautifulSoup 55
2保础json结构62
第3章 单机数据抓取77
3保薄〉セ顺序抓取77
3保病requests 107
3保场〔⒎⒑筒⑿凶ト。保保
第4章 分布式数据抓取137
4保薄RPC的使用138
4保病Celery系统145
第5章 全能的Selenium 159
Ⅴ
5保薄Selenium单机159
5保病Selenium分布式抓取178
5保场Linux无图形界面使用Selenium 188
第6章 神秘的Tor 191
6保薄∽ト∈盜P封锁的问题191
6保病Tor的安装与使用192
6保场Tor多线程197
6保础Tor与Selenium结合205
第7章 抓取常见问题210
7保薄Flash 210
7保病∽烂娉绦颍玻保
7保场U盘213
7保础《级三级页面214
7保怠⊥计的处理214
7保丁App数据抓取214
第8章 监控框架221
8保薄】蚣芩得鳎玻玻
8保病〖嗫叵低呈道225
第9章 拥抱大数据229
9保薄Hadoop生态圈229
9保病Cloudera环境搭建231信息
第1章 Python基础1
1保薄Python安装1
1保病“沧皃ip 6
1保场∪绾尾榭窗镏7
1保础第一个程序10
1保怠∥募操作25
1保丁⊙环28
1保贰∫斐#常
1保浮≡组30
1保埂×斜恚常
1保保啊∽值洌常
1保保薄〖合38
1保保病∷婊数39目 录
第1章 Python基础1
1保薄Python安装1
1保病“沧皃ip 6
1保场∪绾尾榭窗镏7
1保础第一个程序10
1保怠∥募操作25
1保丁⊙环28
1保贰∫斐#常
1保浮≡组30
1保埂×斜恚常
1保保啊∽值洌常
1保保薄〖合38
1保保病∷婊数39
1保保场enumerate的使用40
1保保础〉诙个例子41
第2章 字符串解析46
2保薄〕S煤数46
2保病≌则表达式50
2保场BeautifulSoup 55
2保础json结构62
第3章 单机数据抓取77
3保薄〉セ顺序抓取77
3保病requests 107
3保场〔⒎⒑筒⑿凶ト。保保
第4章 分布式数据抓取137
4保薄RPC的使用138
4保病Celery系统145
第5章 全能的Selenium 159
Ⅴ
5保薄Selenium单机159
5保病Selenium分布式抓取178
5保场Linux无图形界面使用Selenium 188
第6章 神秘的Tor 191
6保薄∽ト∈盜P封锁的问题191
6保病Tor的安装与使用192
6保场Tor多线程197
6保础Tor与Selenium结合205
第7章 抓取常见问题210
7保薄Flash 210
7保病∽烂娉绦颍玻保
7保场U盘213
7保础《级三级页面214
7保怠⊥计的处理214
7保丁App数据抓取214
第8章 监控框架221
8保薄】蚣芩得鳎玻玻
8保病〖嗫叵低呈道225
第9章 拥抱大数据229
9保薄Hadoop生态圈229
9保病Cloudera环境搭建231信息














