技术教育社区
www.teccses.org

数据清洗(第2版)

封面

作者:黑马程序员 著

页数:320

出版社:清华大学出版社

出版日期:2024

ISBN:9787302670292

电子书格式:pdf/epub/txt

网盘下载地址:下载数据清洗(第2版)

内容简介

“本书以Kettle 9.2为基础,全面介绍使用Kettle实现ETL的相关操作。全书共8章,分别讲解数据清洗和ETL的概念,Kettle的安装和使用,如何使用Kettle实现数据抽取、数据清洗、数据转换和数据加载,并在最后综合运用上述知识,构建一个电影租赁商店数据仓库,以使读者加深对Kettle和ETL的理解与掌握。
本书附有配套视频、教学PPT、教学设计、测试题等资源,同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。
本书可以作为高等院校数据科学与大数据技术及相关专业的教材,也适合大数据开发初学者、ETL工程师以及数仓开发的从业者阅读。

作者简介

黑马程序员,是江苏传智播客教育科技股份有限公司旗下高端IT教育品牌,江苏传智播客教育科技股份有限公司是一家致力于培养高素质软件开发人才的科技公司。

本书特色

本书以Kettle 9.2为基础,全面介绍了使用Kettle实现ETL的相关操作。全书共8章,分别讲解了数据清洗的概念、ETL的概念、Kettle的安装和使用、使用Kettle实现数据抽取、使用Kettle实现数据清洗、使用Kettle实现数据转换和使用Kettle实现数据加载,并在 综合运用前面所学的知识,构建一个电影租赁商店数据仓库,加深对Kettle和ETL的理解和掌握。本书通过详细的示例引导,使读者掌握运用Kettle的操作;讲解通俗易懂,让读者 易理解ETL的本质;理论结合实际操作,使读者全面掌握Kettle相关知识;一个实际案例贯穿全书,使读者领略并掌握开发大数据应用系统的完整过程。 本书可以作为高等院校数据科学与大数据技术及相关专业的教材,并适合大数据开发初学者、ETL工程师以及数据仓库开发的从业者阅读。

目录

第1章 数据清洗概述
1.1 数据清洗的背景
1.1.1 数据质量概述
1.1.2 数据质量的评价指标
1.1.3 数据质量问题的分类
1.2 数据清洗的定义
1.3 数据清洗基本流程
1.4 数据清洗策略
1.5 数据清洗常用的方法
1.6 数据清洗面临的挑战
1.7 本章小结
1.8 课后习题
第2章 初识ETL
2.1 ETL的定义
2.2 ETL的体系结构
2.3 ETL关键步骤
2.3.1 抽取
2.3.2 转换
2.3.3 加载
2.4 常见的ETL工具
2.5 本章小结
2.6 课后习题
第3章 Kettle
3.1 初识Kettle
3.1.1 Kettle简介
3.1.2 Kettle的特点
3.2 Kettle的安装与启动
3.3 Kettle的转换和作业
3.3.1 转换
3.3.2 作业
3.4 Kettle的基本操作
3.4.1 转换管理
3.4.2 作业管理
3.4.3 数据库连接
3.5 本章小结
3.6 课后习题
第4章 数据抽取
4.1 从文件中抽取数据
4.1.1 从CSV文件中抽取数据
4.1.2 从TSV文件中抽取数据
4.1.3 从JSON文件中抽取数据
4.1.4 从XML文件中抽取数据
4.1.5 从HDFS中抽取数据
4.2 从数据库中抽取数据
4.2.1 从关系数据库中抽取数据
4.2.2 从非关系数据库中抽取数据
4.3 从Hive中抽取数据
4.4 从HTML页面中抽取数据
4.5 本章小结
4.6 课后习题
第5章 数据清洗
5.1 重复值处理
5.2 缺失值处理
5.2.1 缺失值处理策略
5.2.2 删除缺失值
5.2.3 填补缺失值
5.3 异常值处理
5.3.1 删除异常值
5.3.2 替换异常值
5.4 本章小结
5.5 课后习题
第6章 数据转换
6.1 数据规范化处理
6.1.1 数据规范化处理概述
6.1.2 数据规范化处理过程
6.2 多数据源合并
6.2.1 多数据源合并方法
6.2.2 多数据源合并过程
6.3 数据粒度转换
6.4 数据的商务规则计算
6.5 本章小结
6.6 课后习题
第7章 数据加载
7.1 将数据加载到文本文件
7.2 将数据加载到数据库
7.2.1 将数据加载到关系数据库
7.2.2 将数据加载到非关系数据库
7.3 将数据加载到Hive
7.4 本章小结
7.5 课后习题
第8章 综合案例——构建电影租赁商店数据仓库
8.1 案例概述
8.1.1 案例背景介绍
8.1.2 数据库简介
8.1.3 数据仓库简介
8.2 环境准备
8.3 案例实现
8.3.1 向维度表dim_date加载数据
8.3.2 向维度表dim_time加载数据
8.3.3 向维度表dim_staff加载数据
8.3.4 向维度表dim_customer加载数据
8.3.5 向维度表dim_store加载数据
8.3.6 向维度表dim_actor加载数据
8.3.7 向维度表dim_film加载数据
8.3.8 向桥接表dimjilm_actor_bridge加载数据
8.3.9 向事实表fact_rental加载数据
8.3.10 定期向数据仓库sakila_dwh加载数据
8.4 本章小结

赞助用户下载地址

立即下载

(解压密码:www.teccses.org)

Article Title:《数据清洗(第2版)》
Article link:https://www.teccses.org/3248.html