技术教育社区
www.teccses.org

Python数据抓取技术与实战

封面

作者:潘庆和,赵星驰编著

页数:256

出版社:电子工业出版社

出版日期:2016

ISBN:9787121298844

电子书格式:pdf/epub/txt

内容简介

如何在大数据时代获得实时的数据信息,分析挖掘、提取出有价值的信息,并以直观清晰的图形表示出关键的数量关系和概念,是一个值得研究的问题。本书通过数据抓取篇(如何获得数据信息)、数据分析篇(分析挖掘,提取出有价值的信息)、数据可视化篇(以直观清晰的图形表示出关键的数量关系和概念)详细描述数据抓取、分析、展示的整个流程,每一篇自成一体,可以单独学习掌握。

作者简介

2011年7月毕业于哈尔滨工业大学计算机科学与技术学院,计算机应用技术专业,获得工学博士学位。2011年8月至今,哈尔滨商业大学计算机与信息工程学院,计算机科学与技术专业教师,讲师,主教课程:本科专业课《操作系统》,《专业英语》,研究生《形式语言与自动机》,《大数据技术基础》。2014年获得哈尔滨商业大学优秀教师称号。

本书特色

如何在大数据时代获得实时的数据信息,分析挖掘、提取出有价值的信息,并以直观清晰的图形表示出关键的数量关系和概念,是一个值得研究的问题。本书通过数据抓取篇(如何获得数据信息)、数据分析篇(分析挖掘,提取出有价值的信息)、数据可视化篇(以直观清晰的图形表示出关键的数量关系和概念)详细描述数据抓取、分析、展示的整个流程,每一篇自成一体,可以单独学习掌握。

目录

目  录
第1章 Python基础1
1保薄Python安装1
1保病“沧皃ip 6
1保场∪绾尾榭窗镏7
1保础第一个程序10
1保怠∥募操作25
1保丁⊙环28
1保贰∫斐#常
1保浮≡组30
1保埂×斜恚常
1保保啊∽值洌常
1保保薄〖合38
1保保病∷婊数39目  录
第1章 Python基础1
1保薄Python安装1
1保病“沧皃ip 6
1保场∪绾尾榭窗镏7
1保础第一个程序10
1保怠∥募操作25
1保丁⊙环28
1保贰∫斐#常
1保浮≡组30
1保埂×斜恚常
1保保啊∽值洌常
1保保薄〖合38
1保保病∷婊数39
1保保场enumerate的使用40
1保保础〉诙个例子41
第2章 字符串解析46
2保薄〕S煤数46
2保病≌则表达式50
2保场BeautifulSoup 55
2保础json结构62
第3章 单机数据抓取77
3保薄〉セ顺序抓取77
3保病requests 107
3保场〔⒎⒑筒⑿凶ト。保保
第4章 分布式数据抓取137
4保薄RPC的使用138
4保病Celery系统145
第5章 全能的Selenium 159

5保薄Selenium单机159
5保病Selenium分布式抓取178
5保场Linux无图形界面使用Selenium 188
第6章 神秘的Tor 191
6保薄∽ト∈盜P封锁的问题191
6保病Tor的安装与使用192
6保场Tor多线程197
6保础Tor与Selenium结合205
第7章 抓取常见问题210
7保薄Flash 210
7保病∽烂娉绦颍玻保
7保场U盘213
7保础《级三级页面214
7保怠⊥计的处理214
7保丁App数据抓取214
第8章 监控框架221
8保薄】蚣芩得鳎玻玻
8保病〖嗫叵低呈道225
第9章 拥抱大数据229
9保薄Hadoop生态圈229
9保病Cloudera环境搭建231信息

下载地址

立即下载

(解压密码:www.teccses.org)

Article Title:《Python数据抓取技术与实战》
Article link:https://www.teccses.org/677072.html