技术教育社区
www.teccses.org

[夸克网盘]利用Dask扩展Python性能 PDF

封面

作者:(美)霍尔顿·卡劳,(加)米卡·金明斯

页数:432

出版社:清华大学出版社

出版日期:2024

ISBN:9787302666295

电子书格式:PDF

PDF下载地址

资源编号:167482352.pdf

解压密码:www.teccses.org

1:夸克网盘下载地址(推荐)

2:百度网盘备用地址(推荐)

3:如果以上网盘链接被和谐,打开此链接,看是否有类似以下用红圈圈出来的,也能下载。

PDF电子书百度下载地址

内容简介

本书详细阐述了与Dask 扩展 Python 性能相关的基本知识,主要包括了解 Dask、Dask 基础操作、Dask的工作原理、Dask DataFrame、Dask的集合、高级任务调度、添加可变状态和Dask Actor、评估Dask的组件和库、迁移现有的分析工程、使用GPU和其他特殊资源的Dask、使用Dask进行机器学习、生产化Dask等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。
本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。

作者简介

Holden Karau, is transgender Canadian, and an active open source contributor.When not in San Francisco working as a software development engineer at IBM’s Spark Technology Center, Holden talks internationally on Apache Spark and holds office hours at coffee shops at home and abroad. She is a Spark committer with fre- quent contributions, specializing in PySpark and Machine Learning. Prior to IBM she worked on a variety of distributed, search, and classification problems at Alpine, Databricks, Google, Foursquare, and . She graduated from the University of Waterloo with a Bachelor of Mathematics in Computer Science. Outside of software she enjoys playing with fire, welding, scooters, poutine, and dancing.

本书特色

Dask 是一个使用 Python 进行并行计算的框架,使得并行计算可以从一台机器上的多
个核心扩展到拥有数千台机器的数据中心。它具有低级任务 API 和更高级别的以数据为
中心的 API。低级任务 API 支持 Dask 与各种 Python 库的集成。拥有公共 API 使得工具
生态系统能够围绕 Dask 得以发展,以适应各种用例。

目录

第1章 了解Dask
1.1 需要使用Dask的理由
1.2 Dask在生态系统中的定位
1.2.1 大数据
1.2.2 数据科学
1.2.3 并行分布式Python
1.3 Dask社区库
1.3.1 加速Python
1.3.2 SQL引擎
1.3.3 工作流程调度
1.4 Dask的局限性
1.5 小结
第2章 Dask基础操作
2.1 本地安装Dask
2.2 Hello World
2.2.1 Hello World任务
2.2.2 分布式集合
2.2.3 Dask DataFrame
2.3 小结
第3章 Dask的工作原理:基础知识
3.1 执行后端
3.1.1 本地后端
3.1.2 分布式后端(Dask客户端和调度程序)
3.2 Dask的诊断用户界面
3.3 序列化和Pickling
3.4 分区/分块集合
3.4.1 Dask数组
3.4.2 Dask bag
3.4.3 Dask DataFrame
3.4.4 打乱
3.4.5 加载期间分区
3.5 任务、图和惰性评估
3.5.1 惰性评估
3.5.2 任务依赖关系
3.5.3 可视化
3.5.4 中间任务结果
3.5.5 任务规模调整
3.5.6 当任务图变得太大时
3.5.7 组合计算
3.5.8 持久化、缓存和记忆化
3.6 容错能力
3.7 小结
第4章 Dask DataFrame
4.1 Dask DataFrame的构建方式
4.2 加载和写入
4.2.1 格式
4.2.2 文件系统
4.3 索引
4.4 打乱数据
4.4.1 滚动窗口和map_overlap
4.4.2 聚合
4.4.3 打乱
4.4.4 分区
4.5 尴槛尬的并行操作
4.6 使用多个DataFrame
4.6.1 组合DataFrame的常用函数解析
4.6.2 多DataFrame内部原理
4.6.3 缺失的功能
4.7 无法使用的功能
……
第5章 Dask的集合
第6章 任务调度:Futures
第7章 添加可变状态和DaskActor
第8章 评估Dask的组件和库
第9章 迁移现有的分析工程
0章 使用GPU和其他特殊资源的Dask
1章 使用Dask进行机器学习
2章 生产化Dask:Notebook、部署、调整和监控
附录A Dask用户的关键系统概念
附录B 可扩展的DataFrame
附录C 调试Dask
附录D 使用Streamz和Dask进行流式处理
标题:[夸克网盘]利用Dask扩展Python性能 PDF
链接:https://www.teccses.org/1624432/