技术教育社区
www.teccses.org

混沌工程:NETFLIX系统稳定性之道

封面

作者:(美)AliBasiri(阿里·巴西里

页数:120

出版社:电子工业出版社

出版日期:2018

ISBN:9787121363511

电子书格式:pdf/epub/txt

内容简介

在一个由很多微服务组成的分布式系统中,我们永远难以全面掌握发生什么事件会导致系统局部不可用,甚至全面崩溃。但我们却可以尽可能地在这些不可用的情况发生之前找出系统中的脆弱点。本书介绍了Netflix 的工程师团队是如何根据多年实践经验主动发现系统中脆弱点的一整套方法。这套方法现在已经逐渐演变成计算机科学的一门新兴学科,即“混沌工程”。通过一系列可控的实验和执行实验的原则,混沌工程将揭示出分布式系统中随时发生的各类事件是如何逐步导致系统整体不可用的。本书既适合研发、测试人员用来了解如何构建健壮的系统,也适合软件架构师用来了解设计创建高可用微服务体系的前沿方法,同时更适合在大型互联网或技术组织中专门负责系统稳定性的工程团队阅读。

作者简介

Ali Basiri是Netflix混沌工程团队的创始人,他致力于通过混沌自动化平台(ChAP)、混沌猴子和FIT等一系列弹性计划确保Netflix的可用性。 在此之前,Ali负责Netflix的主动区域故障转移功能,并开发了Citrus——一种使用生产流量的分布式负载测试工具。 在Netflix之前,Ali是PagerDuty的第一位员工,致力于PagerDuty的弹性工作,以保证至少一次通知交付。
侯杰,TGO 鲲鹏会会员,美利金融技术副总裁,整体负责美利金融技术研发工作。曾在爱点击,IBM 中国,IBM 澳大利亚担任研发管理,咨询管理等职位,带领团队负责过多个大规模金融行业信息化项目,和互联网转型实践。毕业于南京大学。

相关资料

“O’Reilly Radar博客有口皆碑。”
——Wired

“O’Reilly凭借一系列(真希望当初我也想到了)非凡想法建立了数百万美元的业务。”
——Business 2.0

“O’Reilly Conference是聚集关键思想领袖的最典范。”
——CRN

“一本O’Reilly的书就代表一个有用、有前途、需要学习的主题。”
——Irish Times

“Tim是位特立独行的商人,他不光放眼于最长远、最广阔的视野并且切实地按照Yogi Berra的建议去做了:‘如果你在路上遇到岔路口,走小路(岔路)。’回顾过去,Tim似乎每一次都选择了小路,而且有几次都是一闪即逝的机会,尽管大路也不错。”
——Linux Journal

本书特色

在一个由很多微服务组成的分布式系统中,我们永远难以全面掌握发生什么事件会导致系统局部不可用,甚至全面崩溃。但我们却可以尽可能地在这些不可用的情况发生之前找出系统中的脆弱点。本书介绍了Netflix 的工程师团队是如何根据多年实践经验主动发现系统中脆弱点的一整套方法。这套方法现在已经逐渐演变成计算机科学的一门新兴学科,即“混沌工程”。通过一系列可控的实验和执行实验的原则,混沌工程将揭示出分布式系统中随时发生的各类事件是如何逐步导致系统整体不可用的。本书既适合研发、测试人员用来了解如何构建健壮的系统,也适合软件架构师用来了解设计创建高可用微服务体系的前沿方法,同时更适合在大型互联网或技术组织中专门负责系统稳定性的工程团队阅读。

目录

第一部分 混沌工程介绍 ……………………………….. 21

第1 章 为什么需要混沌工程 ………………………………………….. 25

混沌工程和测试的区别 ………………………………………. 25

混沌工程绝不是Netflix 的专属 …………………………… 28

实施混沌工程的前提条件 …………………………………… 31

第2 章 管理复杂性 ………………………………………………………… 35

理解复杂系统 …………………………………………………….. 37

系统复杂性的例子 ……………………………………………… 41

从例子中学到了什么 ………………………………………….. 45

第二部分 混沌工程原则 ……………………………….. 49

第3 章 建立稳定状态的假设 ………………………………………….. 55

如何描述稳定状态 ……………………………………………… 60

建立假设 ……………………………………………………………. 61

第4 章 用多样的现实世界事件做验证 ……………………………. 65

第5 章 在生产环境中进行实验 ………………………………………. 73

状态和服务 ………………………………………………………… 74

生产环境中的输入 ……………………………………………… 76

第三方系统 ………………………………………………………… 77

生产环境变更 …………………………………………………….. 79

外部有效性 ………………………………………………………… 79

不愿意实践混沌工程的说辞 ……………………………….. 80

离生产环境越近越好 ………………………………………….. 82

第6 章 自动化实验以持续运行 ………………………………………. 84

自动执行实验 …………………………………………………….. 84

自动创建实验 …………………………………………………….. 89

第7 章 最小化爆炸半径 …………………………………………………. 91

第三部分 混沌工程实践 ……………………………….. 97

第8 章 设计实验 ………………………………………………………….. 100

选定假设 ………………………………………………………….. 101

设定实验的范围 ……………………………………………….. 101

识别出要监控的指标 ………………………………………… 102

在组织内沟通到位 ……………………………………………. 103

执行实验 ………………………………………………………….. 104

分析实验结果 …………………………………………………… 105

扩大实验范围 …………………………………………………… 105

自动化实验 ………………………………………………………. 106

第9 章 混沌工程成熟度模型 ………………………………………… 107

熟练度 ……………………………………………………………… 108

应用度 ……………………………………………………………… 110

绘制成熟度模型图 ……………………………………………. 112

第10 章 结论 ……………………………………………………………….. 114

一些资源 ………………………………………………………….. 114

下载地址

立即下载

(解压密码:www.teccses.org)

Article Title:《混沌工程:NETFLIX系统稳定性之道》
Article link:https://www.teccses.org/1049306.html