基于PYSPARK的高级数据分析 pdf/epub/txt电子书下载-技术教育社区

作者：Akash Tandon，Sandy R

页数：256

出版社：中国电力出版社

出版日期：2024

ISBN：9787519891862

电子书格式：pdf/epub/txt

内容简介

本书的主要内容有：熟悉Spark的编程模型和生态系统。学习数据科学的一般方法。检查分析大型公共数据集执行步骤的完整性。发现哪些机器学习工具对特定问题有帮助。探索可适应多种用途的代码。

作者简介

Akash Tandon是Looppanel的联合创始人兼首席技术官。曾在Atlan担任高级数据工程师。Sandy Ryza是Apache Spark的核心贡献人，领导了Dagster项目的开发。Uri Laserson是Patch Biosciences 的创始人兼首席技术官。曾在Cloudera从事大数据和基因组学的研究。Sean Owen是Apache Spark的核心贡献人和PMC（项目管理委员会）的成员，同时也是Databricks专注于机器学习和数据科学的首席解决方案架构师。Josh Wills是WeaveGrid的软件工程师，也是Slack的前数据工程主管。

本书特色

编辑推荐
时至今日产生的数据量已经达到令人惊人的地步，而且还在不断增长。Apache Spark已经成为分析大数据的实际工具，并且也是数据科学工具箱的关键部分。本书针对Spark最z新版本进行了更新，将Spark、统计方法和真实数据集结合在一起，教你如何运用 PySpark、Spark Python API和Spark编程中的其他最z佳实践来解决分析问题。
数据科学家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wills介绍了Spark生态系统，然后深入研究将常用技术（包括分类、聚类、协同过滤和异常检测）应用于以下的领域：基因组学、安全工作和金融。此更新版本还涵盖图像处理和Spark NLP库。
如果你对机器学习和统计学有基本的了解，并且能够使用Python进行编程，那么本书将帮助你开始进行大规模的数据分析。

目录前言 1第1 章大数据分析 711 使用大数据 812 Apache Spark 和PySpark10121 组件 10122 PySpark 12123 生态系统 1313 Spark 30 1414 PySpark 处理数据科学问题 1515 本章小结16第2 章 PySpark 数据分析简介 1721 Spark 架构 1922 安装PySpark 21目录前言 1第1 章大数据分析 711 使用大数据 812 Apache Spark 和PySpark10121 组件 10122 PySpark 12123 生态系统 1313 Spark 30 1414 PySpark 处理数据科学问题 1515 本章小结16第2 章 PySpark 数据分析简介 1721 Spark 架构 1922 安装PySpark 2123 设置我们的数据 2424 使用DataFrame API 分析数据 3125 DataFrames 的快速汇总统计 3526 DataFrame 的透视和重塑 3727 关联DataFrame 并选择特征4028 评分和模型评估 4229 本章小结44第3 章音乐推荐和音频编码器的数据集 4731 设置数据4832 我们对推荐系统的要求 5133 数据准备5534 构建第一个模型 5835 算法筛查推荐 6236 推荐质量评估 6437 计算AUC 6638 选择超参数 6839 给出推荐71310 本章小结 72第4 章使用决策树和决策森林进行预测 7541 决策树和决策森林 7642 准备数据7943 第一颗决策树 8444 决策树超参数 9245 调试决策树 9446 重温分类特征 9847 随机森林10248 进行预测10549 本章小结105第5 章异常检测与K-means 聚类算法 10751 K-means 聚类 10852 识别异常网络流量 10953 初次尝试聚类 11254 选择K 值 11455 利用SparkR 实现可视化 11856 特征归一化 12357 分类变量12458 使用熵（Entropy）标签 12659 聚类实战128510 本章小结 130第6 章通过LDA、Spark NLP 了解维基百科 13361 隐含狄利克雷分布 13462 获取数据13563 Spark NLP 13764 解析数据13965 使用Spark NLP 准备数据 14166 TF-IDF 14667 计算TF-IDF 14768 创建LDA 模型 14869 本章小结151第7 章基于出租车行程数据的时空序列数据分析 15371 数据准备155711 将日期格式字符串转换为时间戳 157712 处理无效记录 15972 地理空间分析 161721 介绍GeoJSON 161722 GeoPandas 16373 PySpark 会话化 16674 本章小结170第8 章金融风险评估 17181 金融术语17282 VaR 的计算方法 173821 方差与协方差 173822 历史模拟法 173823 蒙特卡罗模拟 17483 我们的模型 17484 获取数据17585 准备数据17786 决定因子权重 18087 抽样 18488 试验运行18789 可视化收益分布 191810 本章小结 192第9 章分析基因组学数据和BDG 项目 19391 从建模中解耦存储 19492 设置ADAM 19793 介绍如何使用ADAM 处理基因组数据 198931 使用ADAM CLI 进行文件格式转换 199932 使用PySpark 和ADAM 采集基因组学数据 20094 预测转录因子结合位点 20695 本章小结212第10 章基于深入学习和PySpark LSH 的图像相似度检测 215101 PyTorch 216102 准备数据 217103 图像矢量表示的深度学习模型 2191031 图像嵌入 2191032 将图像嵌入导入 PySpark 222104 使用PySpark LSH 进行图像相似搜索 223105 本章小结 228第11 章使用MLflow 管理机器学习生命周期 229111 机器学习生命周期 229112 MLflow 231113 实验跟踪 232114 管理和服务ML 模型 236115 创建并使用MLflow 项目 239116 本章小结 243

下载地址

立即下载

（解压密码：www.teccses.org）

基于PYSPARK的高级数据分析

内容简介

作者简介

本书特色

目录

下载地址

Recommended For You

Search 书名作者

Guess You Like

内容简介

作者简介

本书特色

目录

下载地址

Recommended For You

Search 书名 作者

Guess You Like

Search 书名作者