
作者:欧高炎,晏晓东,高扬
页数:184
出版社:科学出版社
出版日期:2019
ISBN:9787030586896
电子书格式:pdf/epub/txt
内容简介
数据科学是一门新兴的交叉学科.数据科学人才需要同时具备理论性、实践性和应用性等多方面的素质.数据科学的知识点涵盖了编程语言、数学基础、数据清洗、数据可视化、数据分析和分布式计算等.为了帮助数据科学从业人员快速地查阅这些知识和工具的使用,提高实践效率,本书对数据科学的相关知识进行了归纳整理,形成数十份速查表.
作者简介
欧高炎 北京大学博士、博士后,博雅大数据学院院长,大数据教育联盟秘书长。中国计算机学会数据库专委会委员。
晏晓东 北京大学理学硕士,曾任北京大数据研究院数据分析师,现从事搜索及推荐算法相关工作。
高扬 芬兰阿尔托大学机器学习与数据挖掘专业硕士,博雅大数据学院数教学研发负责人。
本书特色
本书将数据科学的知识模块划分为编程语言、数据分析、数据可视化、数学统计理论、机器学习、数字图像处理和分布式计算七大模块。在每一个模块,对核心的理论知识进行了介绍,重点介绍了该模块的典型实践工具的使用方法。
在数据科学领域,Python拥有较为完整的生态圈,而且入门门槛较低,因此本书主要介绍基于Python语言的数据科学实践工具。
速查表既有重要的公式推导,也包含常用的代码示例。力图通过简炼的语言、精美的图表,展现数据科学相关技术和工具的核心技能点,帮助读者快速检索知识,提升学习和工作效率。
目录
Contents
第一章编程语言 001
第一节Python 语言 002
第二节R 013
第三节SQL 023
第四节Git 027
第王节Shel1 031
第二章数据分析 041
第节NumPy 042
第二节Scipy Basics 045
第三节Pandas 050
第四节数据清洗 059
第五节StatsModels 063
第三章数学统计理论 068
第节概率 069
第二节统计 074
第三节矩阵微分 079
第四节线性代数 084
第五节图模型 091
第六节凸优化 095
第四章撤据可视化 106
第一节Matplotlib 107
第二节Seabom 111
第三节Basemap 115
第五章机器学习 119
第一节特征工程 120
第二节机器学习建模 125
第三节Scikit-learn 135
第四节PyTorch 141
第六章圄像处理 149
第一节基本概念 150
第二节像素的空间关系 151
第三节图像增强 152
第四节图像变换 156
第五节图像恢复 157
第六节图像分割 157
第七节图像编码 158
第七章分布式计算 159
第一节Haoop 160
第二节spark 166
第一章编程语言 001
第一节Python 语言 002
第二节R 013
第三节SQL 023
第四节Git 027
第王节Shel1 031
第二章数据分析 041
第节NumPy 042
第二节Scipy Basics 045
第三节Pandas 050
第四节数据清洗 059
第五节StatsModels 063
第三章数学统计理论 068
第节概率 069
第二节统计 074
第三节矩阵微分 079
第四节线性代数 084
第五节图模型 091
第六节凸优化 095
第四章撤据可视化 106
第一节Matplotlib 107
第二节Seabom 111
第三节Basemap 115
第五章机器学习 119
第一节特征工程 120
第二节机器学习建模 125
第三节Scikit-learn 135
第四节PyTorch 141
第六章圄像处理 149
第一节基本概念 150
第二节像素的空间关系 151
第三节图像增强 152
第四节图像变换 156
第五节图像恢复 157
第六节图像分割 157
第七节图像编码 158
第七章分布式计算 159
第一节Haoop 160
第二节spark 166















