
作者:(美)KevinSchmidt(凯文·
页数:147
出版社:中国电力出版社
出版日期:2015
ISBN:9787512379442
电子书格式:pdf/epub/txt
内容简介
尽管不需要一个巨大的计算基础设施来运用Apache Hadoop处理大规模数据,但是要开始启动项目仍然是十分困难的。这本实践指南展示了如何在云中使用亚马逊弹性MapReduce(EMR)来快速启动数据分析项目,EMR是亚马逊Web服务(AWS)提供的Hadoop框架。
作者Kevin Schmidt和Christopher Phillips通过一个样本MapReduce日志分析应用程序的开发全过程,向读者展示了使用EMR、多种AWS和Apache技术的最佳实践。通过使用代码样本和示例配置,本书介绍了如何装配解决大数据分析问题所必要的基础材料。
获取用于大规模数据分析的AWS和Apache软件工具的概览。
使用一个简单的日志分析器来贯穿执行Job Flow处理的全过程。
发现用于过滤和分析数据集的有用的MapReduce模式。
使用Apache Hive 和Pig代替Java程序来构建MapReduce的Job Flow。
学习使用亚马逊EMR来运行机器算法的基础知识。
开发使用亚马逊EMR和其他AWS工具的项目开销模型。
作者简介
Kevin J.Schmidt是Dell SecureWorks有限公司的一名资深管理员。他负责公司SIEM平台主要部分的设计与开发。
Christopher Phillips是Dell SecureWorks有限公司的一名资深软件开发者。他负责公司的威胁智能服务平台的设计与开发。
相关资料
“创建mapreduce系统的复杂性阻止了许多组织使用该工具。亚马逊emr使得所有人都可以使用mapreduce,而本书将emr变为你的一个工具。”
——matthew gast
aerohive公司高级技术主管
本书特色
尽管不需要一个巨大的计算基础设施来运用apache hadoop处理大规模数据,但是要开始启动项目仍然是十分困难的。这本实践指南展示了如何在云中使用亚马逊弹性mapreduce(emr)来快速启动数据分析项目,emr是亚马逊web服务(aws)提供的hadoop框架。
作者kevin schmidt和christopher phillips通过一个样本mapreduce日志分析应用程序的开发全过程,向读者展示了使用emr、多种aws和apache技术的最佳实践。通过使用代码样本和示例配置,本书介绍了如何装配解决大数据分析问题所必要的基础材料。
获取用于大规模数据分析的aws和apache软件工具的概览。
使用一个简单的日志分析器来贯穿执行job flow处理的全过程。
发现用于过滤和分析数据集的有用的mapreduce模式。
使用apache hive 和pig代替java程序来构建mapreduce的job flow。
学习使用亚马逊emr来运行机器算法的基础知识。
开发使用亚马逊emr和其他aws工具的项目开销模型。
目录
4.3 在亚马逊EMR上使用Pig 4.4 Hive是什么?
4.5 在亚马逊EMR上使用Hive 4.6 我们应用程序中的Hive和Pig第5章 使用EMR进行机器学习 5.1 机器学习快速导览 5.2 Python和EMR 5.3 接下来干什么呢?
第6章 规划AWS项目并管理开销 6.1 开发项目开销模型 6.2 优化AWS资源来减少项目开销 6.3 亚马逊为预估项目开销提供的工具附录A 亚马逊Web服务资源和工具附录B 云计算、亚马逊Web服务及其影响附录C 安装和设置















