
作者:Akash Tandon,Sandy R
页数:256
出版社:中国电力出版社
出版日期:2024
ISBN:9787519891862
电子书格式:pdf/epub/txt
网盘下载地址:下载基于PYSPARK的高级数据分析
内容简介
本书的主要内容有:熟悉Spark的编程模型和生态系统。学习数据科学的一般方法。检查分析大型公共数据集执行步骤的完整性。发现哪些机器学习工具对特定问题有帮助。探索可适应多种用途的代码。
作者简介
Akash Tandon是Looppanel的联合创始人兼首席技术官。曾在Atlan担任高级数据工程师。Sandy Ryza是Apache Spark的核心贡献人,领导了Dagster项目的开发。Uri Laserson是Patch Biosciences 的创始人兼首席技术官。曾在Cloudera从事大数据和基因组学的研究。Sean Owen是Apache Spark的核心贡献人和PMC(项目管理委员会)的成员,同时也是Databricks专注于机器学习和数据科学的首席解决方案架构师。Josh Wills是WeaveGrid的软件工程师,也是Slack的前数据工程主管。
本书特色
编辑推荐
时至今日产生的数据量已经达到令人惊人的地步,而且还在不断增长。Apache Spark已经成为分析大数据的实际工具,并且也是数据科学工具箱的关键部分。本书针对Spark最z新版本进行了更新,将Spark、统计方法和真实数据集结合在一起,教你如何运用 PySpark、Spark Python API和Spark编程中的其他最z佳实践来解决分析问题。
数据科学家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wills介绍了Spark生态系统,然后深入研究将常用技术(包括分类、聚类、协同过滤和异常检测)应用于以下的领域:基因组学、安全工作和金融。此更新版本还涵盖图像处理和Spark NLP库。
如果你对机器学习和统计学有基本的了解,并且能够使用Python进行编程,那么本书将帮助你开始进行大规模的数据分析。
目录
目录前言 1第1 章 大数据分析 711 使用大数据 812 Apache Spark 和PySpark10121 组件 10122 PySpark 12123 生态系统 1313 Spark 30 1414 PySpark 处理数据科学问题 1515 本章小结16第2 章 PySpark 数据分析简介 1721 Spark 架构 1922 安装PySpark 21目录前言 1第1 章 大数据分析 711 使用大数据 812 Apache Spark 和PySpark10121 组件 10122 PySpark 12123 生态系统 1313 Spark 30 1414 PySpark 处理数据科学问题 1515 本章小结16第2 章 PySpark 数据分析简介 1721 Spark 架构 1922 安装PySpark 2123 设置我们的数据 2424 使用DataFrame API 分析数据 3125 DataFrames 的快速汇总统计 3526 DataFrame 的透视和重塑 3727 关联DataFrame 并选择特征4028 评分和模型评估 4229 本章小结44第3 章 音乐推荐和音频编码器的数据集 4731 设置数据4832 我们对推荐系统的要求 5133 数据准备5534 构建第一个模型 5835 算法筛查推荐 6236 推荐质量评估 6437 计算AUC 6638 选择超参数 6839 给出推荐71310 本章小结 72第4 章 使用决策树和决策森林进行预测 7541 决策树和决策森林 7642 准备数据7943 第一颗决策树 8444 决策树超参数 9245 调试决策树 9446 重温分类特征 9847 随机森林10248 进行预测10549 本章小结105第5 章 异常检测与K-means 聚类算法 10751 K-means 聚类 10852 识别异常网络流量 10953 初次尝试聚类 11254 选择K 值 11455 利用SparkR 实现可视化 11856 特征归一化 12357 分类变量12458 使用熵(Entropy)标签 12659 聚类实战128510 本章小结 130第6 章 通过LDA、Spark NLP 了解维基百科 13361 隐含狄利克雷分布 13462 获取数据13563 Spark NLP 13764 解析数据13965 使用Spark NLP 准备数据 14166 TF-IDF 14667 计算TF-IDF 14768 创建LDA 模型 14869 本章小结151第7 章 基于出租车行程数据的时空序列数据分析 15371 数据准备155711 将日期格式字符串转换为时间戳 157712 处理无效记录 15972 地理空间分析 161721 介绍GeoJSON 161722 GeoPandas 16373 PySpark 会话化 16674 本章小结170第8 章 金融风险评估 17181 金融术语17282 VaR 的计算方法 173821 方差与协方差 173822 历史模拟法 173823 蒙特卡罗模拟 17483 我们的模型 17484 获取数据17585 准备数据17786 决定因子权重 18087 抽样 18488 试验运行18789 可视化收益分布 191810 本章小结 192第9 章 分析基因组学数据和BDG 项目 19391 从建模中解耦存储 19492 设置ADAM 19793 介绍如何使用ADAM 处理基因组数据 198931 使用ADAM CLI 进行文件格式转换 199932 使用PySpark 和ADAM 采集基因组学数据 20094 预测转录因子结合位点 20695 本章小结212第10 章 基于深入学习和PySpark LSH 的图像相似度检测 215101 PyTorch 216102 准备数据 217103 图像矢量表示的深度学习模型 2191031 图像嵌入 2191032 将图像嵌入导入 PySpark 222104 使用PySpark LSH 进行图像相似搜索 223105 本章小结 228第11 章 使用MLflow 管理机器学习生命周期 229111 机器学习生命周期 229112 MLflow 231113 实验跟踪 232114 管理和服务ML 模型 236115 创建并使用MLflow 项目 239116 本章小结 243
赞助用户下载地址
立即下载(解压密码:www.teccses.org)
Article Title:《基于PYSPARK的高级数据分析》
Article link:
https://www.teccses.org/11995.html