技术教育社区
www.teccses.org

高等职业教育系列教材数据清洗(高等职业教育系列教材)

封面

作者:黄源涂旭东罗少甫编著

页数:236

出版社:机械工业出版社

出版日期:2020

ISBN:9787111657156

电子书格式:pdf/epub/txt

内容简介

《数据清洗》主要介绍数据清洗技术的基本概念与应用。全书共有8章,分别讲述了数据清洗基础、数据清洗方法、文件类型、数据采集与抽取、Excel数据清洗与转换、ETL数据清洗与转换、Python数据清洗、R语言数据清洗。 《数据清洗》将理论与实践操作相结合,通过大量的案例帮助读者快速了解和应用大数据清洗的相关技术。针对书中重要的、核心的知识点,提供了较多的练习,帮助读者达到熟练应用的目的。 《数据清洗》可作为高职高专院校大数据技术与应用、软件技术、信息管理、计算机网络等专业的专业课教材,也可作为大数据爱好者的参考书。

作者简介

黄源,重庆航天职业技术学院副教授,参加工作以来,一直从事计算机课程的教学与科研,公开发表科研,教改论文多篇,并于2013年获得副教授职称。积极参加学校的精品课程建设与微课改革,出版专著3部,以前参编的北大出版社《网页设计教程与实训》曾获教材一等奖。

本书特色

适读人群 :高职高专院校大数据技术与应用、软件技术、信息管理、计算机网络等专业的学生1)采用“理实一体化”的教学方式,既有教师授课部分又有让学生独立思考、上机操作的内容。
2)包含丰富的教学资源,本书配有微课视频、教学课件、习题答案等。
3)紧跟时代潮流,注重技术变化,书中包含了最新的大数据分析知识及一些开源库的使用。
4)编写本书的教师都具有多年的教学经验,重难点突出,能够激发学生的学习热情。

目录

目 录

前言

第1章 数据清洗基础

11 数据清洗概述

111 数据清洗的定义

112 数据清洗的对象

113 数据清洗的原理

114 数据清洗的评估

115 数据清洗的框架模型

116 数据清洗研究与应用展望

117 数据清洗的行业发展

12 数据标准化

121 数据标准化简介

122 数据标准化方法

123 数据标准化的实例

13 数据清洗的常用工具

14 实训1 安装和运行Kettle

15 实训2 安装和运行OpenRefine

16 实训3 安装和运行Python 3

17 小结

习题1

第2章 数据清洗方法

21 数据质量

211 数据质量的定义

212 数据质量中的常见术语

22 数据预处理

221 数据预处理简介

222 数据预处理方法

23 数据清洗方法

231 数据缺失值的处理方法

232 噪声数据的处理方法

233 冗余数据的处理方法

234 数据格式与内容的处理方法

24 数据清洗中的统计学基础

25 实训1 找出离群点

26 实训2 找出统计对象

27 实训3 找出数据清洗的步骤

28 实训4 找出异常数据

29 小结

习题2

第3章 文件类型

31 文件格式

311 文件格式概述

312 Windows中常见的文件格式

32 数据类型与字符编码

321 数据类型概述

322 字符编码

323 用Python读取文件

324 数据转换

33 数据转换的实现

331 用Python生成与读取CSV文件

332 用Python读取与转换JSON文件

34 实训1 将XML文件转换为JSON文件

35 实训2 将JSON文件转换为CSV文件

36 小结

习题3

第4章 数据采集与抽取

41 数据采集概述

411 了解数据采集

412 日志数据采集与处理的常见方法

413 数据采集平台

414 数据采集工具

42 网页数据采集与实现

421 网络爬虫概述

422 网页数据采集的实现

43 数据抽取

431 数据抽取概述

432 文本数据抽取

433 网页数据抽取

44 实训1 使用Kettle抽取本地XML文件

45 实训2 使用Kettle抽取CSV数据并输出为文本文件

46 小结

习题4

第5章 Excel数据清洗与转换

51 Excel数据清洗概述

511 Excel简介

512 Excel数据清洗与转换方法

52 Excel数据清洗与转换的实现

521 常用数据分析函数介绍

522 删除重复行

523 文本查找和替换

524 数据替换

525 字符串截取

526 字母大小写转换

527 删除空格和非打印字符

528 数字和数字符号的转换

529 日期和时间处理

5210 合并和拆分列

5211 数据的转置

5212 数据查询和引用

53 实训1 清洗简单数据

54 实训2 清洗复杂数据

55 小结

习题5

第6章 ETL数据清洗与转换

61 数据仓库与ETL

611 数据仓库

612 ETL概述

62 Kettle数据清洗与转换基础

621 Kettle数据清洗

622 Kettle数据转换

63 Kettle数据仓库高级应用

64 实训1 在Kettle中识别流的最后一行并写入日志

65 实训2 在Kettle中用正则表达式清洗数据

66 实训3 使用Kettle过滤数据表

67 实训4 使用Kettle生成随机数并相加

68 小结

习题6

第7章 Python数据清洗

71 Python数据清洗基础

711 Python语言基础

712 Python数据清洗所用库

72 数据读写、选择、整理和描述

721 从CSV文件读取数据

722 写入数据到CSV文件

723 数据整理和描述

73 数据分组、分割、合并和变形

731 数据分组

732 数据分割

733 数据合并

734 数据变形

74 缺失值、异常值和重复值处理

741 缺失值处理

742 异常值检测和过滤

743 移除重复数据

75 时间序列处理

751 Python的日期与时间工具

752 Pandas时间序列数据结构

76 字符串处理

761 Python字符串方法列表

762 Python正则表达式

763 Pandas的字符串方法

77 实训1 清洗企业员工信息

78 实训2 清洗在校生饮酒消费数据

79 小结

习题7

第8章 R语言数据清洗

81 R语言简介

82 R语言基础

821 R语言运算符号

822 R语言数据类型

83 R语言datatable数据包

831 datatable数据包介绍

832 创建datatable对象

下载地址

立即下载

(解压密码:www.teccses.org)

Article Title:《高等职业教育系列教材数据清洗(高等职业教育系列教材)》
Article link:https://www.teccses.org/1169981.html