2021年10月28日
2021年10月28日
贡献者:Katie Costello
混沌工程确保了在一个充满持续变化的数字时代可靠的基础设施。
美国一家大型航空公司于2018年10月实施了混沌工程(CE)作为内部实践,并立即发现了一个巨大的弹性漏洞。该公司现在通过CE培养了一种学习和深入理解其IT系统的文化,并成功地避免了潜在的未来破坏客户服务的潜在后果。
随着企业继续优先考虑扩大规模数字计划,基础设施系统必须可靠。与灾难恢复或业务连续性计划等被动方法相比,CE为这家航空公司提供了一种更动态的方式,可以在意外故障发生之前对其进行测试。
探索最新:高层的战略
探索最新:2022年的顶级战略技术趋势
混沌工程是利用实验和潜在的破坏性故障测试来发现漏洞以及复杂系统中的弱点。高德纳建议,组织在生产前的基础设施系统中,以系统地计划、记录、执行和分析“测试优先”的方法启动混沌工程。
站点可靠性工程(SRE)团队经常使用CE来主动证明和提高故障条件下的弹性。Gartner公司发布的《2021年软件工程炒作周期》(Hype Cycle for Software Engineering, 2021)显示,在虚拟第一的世界里,最大限度地提高客户的正常运行时间变得越来越重要。
阅读更多:Gartner预测2021年影响基础设施和运营的六大趋势
混沌工程实际上远非混沌——它是一种有纪律的数据驱动方法,用于运行实验,使用混沌行为来强调系统并发现它们的弱点(或证明它们的弹性)。行政长官的主要好处包括:
这些好处反过来又有助于改善客户体验、客户满意度、客户保留率和新客户获取。
“许多组织对待CE概念的态度是,这种实践风险太大,无法投入生产,”他说吉姆Scheibmeir, Gartner的董事分析师。“现实情况是,避免CE等同于拥抱危机工程。”
混沌工程的两个最大驱动因素是系统的复杂性和不断增加的客户期望。随着系统的特性越来越丰富,它们的组成也越来越复杂,对业务成功也越来越重要。自2019年10月以来,Gartner客户对混沌工程的咨询大幅增加。
许多组织将他们的成功押注在过度强调软件功能而低估验证系统可靠性的测试计划上。
就像通过有控制地注射弱化病毒来攻击免疫系统一样,混乱工程训练组织处理错误和系统故障。它将测试系统的重点转移到在不同程度的影响下,系统如何优雅地失败,甚至如何继续有用。CE还可以帮助识别产品文档不足或系统知识缺乏或孤立的地方。
目前,提高系统可靠性的操作工作过多地关注于强调事件管理和服务恢复的反应性流程。相比之下,混沌工程的主动性质使组织能够管理和减轻系统停机和中断的风险。
因此,你可以满足顶部DevOps目标包括提高敏捷性、减少缺陷的发布质量和系统可靠性。当由于混乱工程而导致停机频率减少时,花在计划的基础设施计划上的时间将不会轻易中断。
Gartner预计,到2023年,40%的组织将把混沌工程实践作为DevOps计划的一部分,将计划外停机时间减少20%。
混沌工程实践相对较新,但它们是高效团队的重要组成部分。由于CE尚处于起步阶段,采用它有三个核心障碍:
基础设施和运营(I&O)不主动确保可靠性的团队只会发现自己对混乱做出反应,这本质上与接受系统停机是一样的。
Gartner建议混沌工程采用测试优先的方法。在测试环境中执行攻击计划,并将所学到的知识和价值应用到生产系统中。
通过让员工参与实践,与其他业务部门共享混沌计划,并随着时间的推移进行协作实验和改进,使混沌工程成为您常规团队操作的一部分。
克服对混沌工程的恐惧,将其作为实现所需系统可靠性的手段。混沌工程可以通过在预生产环境中开始实践来安全地完成,这允许组织学习,增加可靠性和对复杂系统依赖关系的更好理解。
本文已从2020年3月的原文更新,以反映新的事件、情况或研究。
准备好接受世界领先的基础设施和运营(I&O)领导者和Gartner专家的启发,探索最新的技术。
为Gartner客户推荐的资源*:
*请注意,有些文档可能不是所有Gartner客户都能获得。