技术教育社区
www.teccses.org

数据科学与工程技术丛书数据科学之编程技术:使用R进行数据清理.分析与可视化

封面

作者:[美]迈克尔·弗里曼(Michael

页数:284

出版社:机械工业出版社

出版日期:2018

ISBN:9787111640899

电子书格式:pdf/epub/txt

内容简介

本书围绕使用R进行数据科学编程所需的实际步骤展开,介绍了有关该主题的工具和技术的整个系统。书分为六大部分。第壹部分介绍了如何下载和安装书中涉及的各种软件;第二部分介绍了项目管理的基础技术,包括跟踪代码的版本并生成文档;第三部分介绍了R编程语言,它是整本书使用的主要开发语言;第四部分介绍了如何在R中加载、格式化、遍历和重塑数据;第五部分介绍了数据科学中数据可视化的原则以及如何利用R构建数据可视化;第六部分介绍了如何用两种不同的方法创建交互平台来分享自己的观点,以及如何拓展自己的知识。

本书特色

本书围绕使用R进行数据科学编程所需的实际步骤展开,介绍了有关该主题的工具和技术的整个系统。书中共分为六大部分。第壹部分介绍了如何下载和安装书中涉及的各种软件;第二部分介绍了项目管理的基础技术,包括跟踪代码的版本并生成文档;第三部分介绍了R编程语言,它是整本书使用的主要开发语言;第四部分介绍了如何在R中加载、格式化、遍历和重塑数据;第五部分介绍了数据科学中数据可视化的原则以及如何利用R构建数据可视化;第六部分介绍了如何用两种不同的方法创建交互平台来分享自己的观点,以及如何拓展自己的知识。

目录

译者序

前言
第一部分 开始
第1章 设置计算机2
1.1 设置命令行工具3
1.1.1 Mac上的命令行3
1.1.2 Windows上的命令行3
1.1.3 Linux上的命令行3
1.2 安装git3
1.3 创建GitHub账户4
1.4 选择一个文本编辑器4
1.4.1 Atom4
1.4.2 Visual Studio Code5
1.4.3 Sublime Text5
1.5 下载R语言5
1.6 下载RStudio5
第2章 使用命令行7
2.1 访问命令行7
2.2 浏览文件系统8
2.2.1 改变目录9
2.2.2 列出文件10
2.2.3 路径10
2.3 管理文件12
2.3.1 学习新命令12
2.3.2 通配符13
2.4 错误处理14
2.5 重定向输出15
2.6 网络命令16
第二部分 项目管理
第3章 使用git和GitHub进行版本控制20
3.1 什么是git20
3.1.1 git的核心概念21
3.1.2 什么是GitHub21
3.2 配置和项目设置22
3.2.1 生成一个仓库22
3.2.2 检查状态23
3.3 跟踪项目变更24
3.3.1 添加文件24
3.3.2 提交25
3.3.3 审核本地git流程26
3.4 在GitHub中存储项目26
3.4.1 分支和克隆27
3.4.2 推送和拉取28
3.5 访问项目历史30
3.5.1 提交历史30
3.5.2 恢复早期版本30
3.6 忽略项目中的文件31
第4章 使用Markdown制作文档34
4.1 编写Markdown34
4.1.1 文本格式34
4.1.2 文本块34
4.1.3 超链接35
4.1.4 图像36
4.1.5 表格36
4.2 渲染Markdown36
第三部分 R的基本技能
第5章 R语言40
5.1 用R编程40
5.2 运行R代码40
5.2.1 使用RStudio41
5.2.2 从命令行运行R42
5.3 注释44
5.4 变量定义44
5.4.1 基本数据类型45
5.5 获取帮助48
5.5.1 如何学习R49
第6章 函数52
6.1 什么是函数52
6.1.1 R函数语法53
6.2 内置R函数53
6.2.1 命名参数54
6.3 加载函数55
6.4 编写函数56
6.4.1 调试函数58
6.5 使用条件语句59
第7章 向量61
7.1 什么是向量61
7.1.1 创建向量61
7.2 向量化操作62
7.2.1 循环63
7.2.2 多数为向量64
7.2.3 向量化函数65
7.3 向量索引66
7.3.1 多索引67
7.4 向量过滤68
7.5 向量修改69
第8章 列表71
8.1 什么是列表71
8.2 创建列表71
8.3 访问列表元素72
8.4 修改列表75
8.4.1 单双括号75
8.5 lapply()函数76
第四部分 数据清理
第9章 理解数据80
9.1 数据生成过程80
9.2 查找数据81
9.3 数据类型82
9.3.1 测量尺度82
9.3.2 数据结构83
9.4 解释数据84
9.4.1 获取领域知识84
9.4.2 了解数据模式86
9.5 用数据回答问题87
第10章 数据框89
10.1 什么是数据框89
10.2 使用数据框89
10.2.1 创建数据框90
10.2.2 数据帧的结构90
10.2.3 访问数据框91
10.3 使用CSV数据92
10.3.1 工作目录93
10.3.2 因子变量95
第11章 使用dplyr操作数据98
11.1 操作数据语法98
11.2 核心dplyr函数98
11.2.1 选择99
11.2.2 过滤101
11.2.3 修改102
11.2.4 排序102
11.2.5 汇总103
11.3 执行顺序操作104
11.3.1 管道操作105
11.4 按组分析数据框106
11.5 连接数据框108
11.6 dplyr实战:分析飞行数据111
第12章 使用tidyr重塑数据116
12.1 什么是“整洁”数据116
12.2 从列到行:gather()117
12.3 从行到列:spread()119
12.4 tidyr实战:探索教育统计120
第13章 访问数据库125
13.1 关系数据库概述125
13.1.1 什么是关系数据库125
13.1.2 建立关系数据库127
13.2 体验SQL128
13.3 从R访问数据库131
第14章 访问Web API135
14.1 什么是Web API135
14.2 RESTful请求136
14.2.1 URI(统一资源标识符)136
14.2.2 HTTP动词140
14.3 从R访问Web API141
14.4 处理JSON数据142
14.4.1 解析JSON144
14.4.2 展平数据145
14.5 API实战:在西雅图寻找古巴食品147
第五部分 数据可视化
第15章 设计数据可视化154
15.1 可视化的目的154
15.2 选择可视化布局156
15.2.1 可视化单个变量156
15.2.2 可视化多个变量159
15.2.3 可视化分层数据162
15.3 选择有效的图形编码162
15.3.1 有效颜色165
15.3.2 利用前注意属性167
15.4 数据显示的表达力168
15.5 强化美学170
第16章 使用ggplot2创建可视化171
16.1 图形语法171
16.2 使用ggplot2进行基本绘图172
16.2.1 指定几何图形174
16.2.2 美学映射176
16.3 复杂的布局及定制176
16.3.1 位置调整176
16.3.2 标度样式178
16.3.3 坐标系180
16.3.4 分面181
16.3.5 标签和注释182
16.4 构建地图184
16.4.1 分级统计(Choropleth)地图184
16.4.2 点分布地图186
16.5 ggplot2实战:绘制旧金山驱逐地图187
第17章 R中的交互式可视化191
17.1 plotly包192
17.2 rbokeh包194
17.3 leaflet 包196
17.4 交互式可视化实战:展示西雅图的变化198
第六部分 构建和共享应用程序
第18章 使用R Markdown创建动态报告204
18.1 设置报告204
18.1.1 新建.Rmd文件204
18.1.2 编织(Knit)文档206
18.2 集成Markdown与R代码207
18.2.1 R代码块207
18.2.2 内联代码208
18.3 在

下载地址

立即下载

(解压密码:www.teccses.org)

Article Title:《数据科学与工程技术丛书数据科学之编程技术:使用R进行数据清理.分析与可视化》
Article link:https://www.teccses.org/1095011.html