购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.4
确定性运维体系

确定性运维是华为云提出的一个面向云时代高效能、高质量的运维体系,是由“高可用架构”“动态风险治理”“高度智能运维框架”形成的一个有机结合体(见图3-22)。覆盖了从产品设计、开发到部署上线,再到日常运行的生命周期全过程。通过“确定性运维”,组织能够将业务高速发展带来的“不确定性”变成不断进阶的“确定性”。

图3-22 持续韧性框架

确定性运维思想以及方法论体系源于华为云业务从小量到大量再到海量的高速发展以及新型技术和开发模式引入的全过程。为了应对解耦的网络(Messy Complex)、快速迭代(Active Iteration)、安全生产(Trustworthy Operation)和全栈运维(Evolution FullStack)带来的不确定的挑战,华为云SRE用“确定性运维”能力支撑了华为云“稳定可靠”,平台质量和运维效率均得到大幅改善。

华为云SRE经过多年实践,总结出“持续韧性”(Continue Resilience)标准,即韧性是从架构设计、到交付、到现网运行的持续改进。运维新常态是接受部分故障,处在部分故障中的系统要求仍能正常对外提供服务。持续韧性价值主张是“确定性质量结果”,即“确定性运维”能力,包括以下几个部分。

●确定性高可用架构:包括确定性失效率、确定性恢复时长以及确定性故障影响。

●动态清零风控方法:包括全面质量管理(被动响应为主)和站点风控(主动运维为主)。

●低复杂度运维框架:在业务高度复杂的情况下,通过智能运维作业工具的深化开展,提升效率,确保运维组织规模不线性增长。

组织在业务快速增长、数字化转型或深入云化改造,可能遇到可用性管理、责任分工、容量管理、云资源配置、安全生产、效率提升、智能运维能力构建等问题,需要将“确定性运维”能力转化为云上业务运维的能力体系,在运维体系进阶过程中,“组织、流程、工具”也在业务驱动下分别做了升级:

首先是“组织”能力升级,确定性运维模型下,运维组织需要转型为“建构师”,主要承担三个角色:可用性守护者、可用性设计者和软件工程开发者。

其次是“流程”能力升级,在确定性运维模式下,不仅需优化原有流程(监控、事件、问题、变更管理),还需增加主动管理业务可用性、运营、资源和需求流程。尤其是可用性管理,包括PPR高可用架构能力检查、交付验收、容灾演练、压力测试、应急预案等混沌工程流程。

再者是“确定性运维”能力升级,相比传统运维能力,增加深度参与前端产品架构设计和监控设计、混沌工程等活动内涵,建议重点关注保障业务稳定和部分能力的逐步自动化与智能化,提升整体效率。

运维可靠是确定性运维思想的基础与核心构成,为此华为云总结出“确定性运维之运维可靠”体系。通过“确定性”的各项能力,支撑业务团队既“快”又“稳”地发展业务。稳定可靠的核心要义(见图3-23)是:质量文化是基础,高可用架构是前提,动态风险治理是保障,智能运维是未来。“稳定可靠”体系,是面向云时代的高效能、高质量的运维体系,其将“建构师”的思想注入产品设计与开发阶段,从源头构建产品可用性能力,在日常运维过程中用软件工程的思想解决问题,将风险、隐患系统性管理起来,将琐碎活动自动化,提升效率。通过“稳定可靠”将业务高速发展带来的“不确定性”变成服务水平目标(Service Level Objective,SLO)是指服务水平目标)的“确定性”,而这一切需要全员共识的质量文化作为基础。

稳定可靠“1+ N ”:“1”为标准化运维,“ N ”为稳定可靠专项能力。基于ITIL标准构建标准化运维,建立三线运维支撑团队,建立覆盖关键运维活动的流程规范,建设统一运维平台。在标准化运维的基础上开展SRE变革,构建稳定可靠能力。根据生命周期,稳定可靠共有六大领域能力,六大领域能力下有多个专项能力。

图3-23 确定性运维之稳定可靠要义

1.专项能力定义

●高可用设计:业务可用性度量(SLO/SLI)设计、架构高可用设计、监控设计。

●上线管理:生产准备度评审(PRR)、性能压测。

●确定性恢复:故障管理、混沌工程。

●风险治理:告警优化、变更风控、风险冒泡、重大保障、数据运营。

●资源治理:容量管理、成本管理。

●运维合规:安全生产。

2.能力体系升级

云上数以万计的客户,虽然所运维的对象不同,但是面对的挑战却有不少的共同之处。当企业在业务快速增长、数字化转型或深入云化改造时,可能会遇到可用性管理、责任分工、容量管理、云资源配置、安全生产、效率提升、智能运维能力构建等问题,华为云SRE将自身的“稳定可靠”实践结合云上应用维护实践,梳理出如下适用于云上业务的“稳定可靠”体系,相较于传统运维体系,有如下变化:

●传统运维关注问题快速定界定位,关注产品的可维护性,稳定可靠体系中,运维团队不仅关注可维护性,更多地参与到产品的架构设计中,落实“产品高可用架构”。

●传统运维以被动响应为主、主动巡检为辅,稳定可靠体系全面加强了主动运维的活动,开展“动态风险治理”。

●传统开发模式下版本交付经过较长周期的质量管理且变更并不频繁(趋于稳态),但现在更多组织执行“持续交付”流程(趋于敏态),为保障业务稳定,须强调自动化变更以降低风险。

●传统业务体量小的时候,运维合规的压力并不高,体量变大以后参与的团队增多,交付越发频繁,安全生产的压力和能力诉求都很大。

●基础设施云化以后,面对种类繁多的云化资源(包括操作系统、网络、数据库、容器等),需要自动化的“资源治理”能力以提升质量和效率。

为了帮助组织有效地规划和制定运维策略,华为云还推出了确定性运维成熟度模型,基于运维模式,对组织、文化、体系、能力、工具进行评估,共同探讨优化策略。该模型中每项能力都有自己的成熟度,综合成熟度主要将各项成熟度进行汇总,大体从组织、流程、确定性运维三方面进行综合评估,如图3-24所示。

●基本运维:没有流程,也没有承载流程的工具,主要靠专家经验做运维,结果没有保障。运维人员被动响应,疲于奔命,变更引入重大事件,人因事件占比高,重大事件平均恢复时长(MTTR)不确定,安全生产存在较大不确定性。

●标准化运维:引入ITIL标准化流程,但运维人员仍然被动响应,变更引入重大事件有所缓解,人因事件占比减少,琐事缠身,MTTR平均恢复时长初步有所改善。

●SRE转型:组织全面开展SRE,使用软件工程方法解决运维课题、构建自动化作业能力,基础设施高可用能力、全方位的拨测能力,应急演练能力、负向改进能力,建立运维业务的质量意识和可靠性的文化,回溯改进复盘文化等。

●初步确定性:开展广义SRE,运维延伸到研发组织,共同守护SLO指标,设计SLO/SLI体系、构建混沌工程验证可靠性能力、确定性恢复能力、故障自愈能力,深度参与到产品设计和上线活动,构建先于客户发现故障的能力。

●高度确定性:构建面向业务的动态风险治理能力、构建AIOps智能定界定位的能力、故障自愈的能力,敢于挑战高于99.99%的可用性,人因事件率优于6σ水平。

图3-24 确定性运维成熟度模型 DxkMEQ9l3Ey6WS0Fxb8790cwv629U8V9RQrt6vy/axP+m2XtvoDtICIE5EBS6zZW

点击中间区域
呼出菜单
上一章
目录
下一章
×