购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

Chapter 3
第3章
构建应对复杂环境的数字化运维体系

“我们渴望构建一种能够描述市场、顾客及组织等世界万物的模型,并利用它为未来制定完美的战略。但很不幸,那是做不到的,而且永远做不到。未来具有VUCA特性,即波动性(Volatility)、不确定性(Uncertainty)、复杂性(Complexity)和模糊性(Ambiguity)。没有哪个模型能够永远适用,我们必须保持敏捷、行动迅速,培养创造性思维,接受敢于尝试的文化。”

——彼得·汉森

人类社会一直在遇见问题、解决问题、适应环境的螺旋上升中发展。比如,牛顿的物理定律虽然解释了从星球运行到苹果落地的规律,但无法解释非常小或速度非常快的事物,所以人类提出了量子力学和相对论。在金融企业,为了应对环境、市场、政策、业务的变化,信息技术发展经历了电算化、信息化两个阶段,现在步入数字化转型阶段。进入数字化时代,从运维体系角度看,运维适应性系统包括大量部件,比如各类机器人、信息系统、硬件等,部件之间通过越来越复杂的技术架构、业务逻辑、协同关系串起来,形成复杂的协同网络。为了保障运维适应性系统能够稳定、高效、安全运行,运维组织持续提升单节点的可靠性、可用性、适应性,同时利用“整体大于局部之和”的思路去实现更加完善的协同网络,达到支撑企业的运维价值创造。

3.1 复杂与不确定性

在企业都在进行数字化转型的今天,我们经常会听到“复杂”“不确定性”等词,所以在进入运维体系适应性系统学习前,先了解还原论、复杂科学、适应性系统、VUCA。

还原论是一种哲学思想,它认为复杂的系统、事物、现象可以化解为各部分之组合。还原论认为世界的本质在于简单。可以说,还原论是人们工作及生活中最基础的思维模式之一,是因果关系的极致反映。现实中,人们一直致力于让自己的工作与生活能更加简约、单纯、有序,比如描述技术方案时,会分解为“痛点分析、政策或业务背景、调研分析、目的与目标、整体解决方案、技术方案、关键技术、投入产出、短期计划、中长期展望”;在产品设计时,会分解为用户旅程分析、客户价值主张、精益创新等;在工具使用上,经常使用结构化思维导图等。

复杂科学不是对还原论的否定,而是针对社会中的复杂性提出的复杂环境下洞察、系统性分析方法。或者说,复杂系统仍然体现出秩序,在无中心控制的情况下,大量简单个体可自行组织成能够产生模式、处理信息甚至学习的整体。复杂系统具有适应性,因为个体和集体的行为会随着微观事件或事件集合的发生而变异或自组织。复杂适应系统可以看作相似且部分连接的微观结构形成的复杂宏观集合,可以适应不断变化的环境,提高宏观集合的生存能力。

接下来看看VUCA的4个特性。波动性是指企业将面临越来越动荡的环境、干扰越来越多;不确定性是指不确定客户、业务、市场会发生什么变化,即使原来相对确定的事情也会衍生出大量不确定行为;复杂性是指一件小事可能会产生巨大影响,而且这些小事的影响因素越来越多;模糊性是指事物并非只有一个答案。针对VUCA特性,行业通常会对IT部门提出能力提升要求,比如以客户为中心,以价值创造为核心,加快IT交付速度,提升协同敏捷性,提升业务创新效率,加强技术创新引领,建立试错文化,建立协同网络等。

3.2 运维复杂性因素

企业运维体系的发展是一个从组织、流程、平台、场景4个维度不断适应环境变化的过程,整个过程形成了一个IT数字世界的适应性系统。

1.从运维价值创造分析复杂性

以下围绕“提高业务连续性保障水平”“提升业务交付速度”“辅助提升客户体验”“提升IT服务质量”4个数字化运维价值创造,分析运维适应性系统有哪些复杂影响因素。

价值1:提高业务连续性保障水平

第2章笔者用鱼骨图梳理了影响业务连续性的要素,可以看到影响业务连续性的要素很多,且影响要素随着业务发展、外部政策变化、企业内部转型战略与举措实施将会不断增加。以金融企业的技术架构演进为例,以往金融企业的技术架构主要以单体烟囱式架构为主。这种架构的系统逻辑简单,开发设计灵活,短时间即可快速上线。但是随着业务需求变化、系统数量增加、系统间上下游链路增加,企业的技术架构向服务化架构转变,之后又向微服务架构演进,具体实现上从集中式ESB向每个服务都引入ESB部分功能转变。可以看出,虽然分布式架构强调软件能力重用、业务抽象、去耦合、平台化、标准化、自动化,但是对于运维而言,服务化架构不可避免地引起应用链路节点增加、逻辑关系复杂,让运维面临更大挑战。为此,运维人员需要推动运维能力前移、优化工作流程,构建面向复杂环境的工程能力,比如构建自动化发布系统、持续增强监控体系、提升故障发现能力、建立全链路压测、提升运行数据感知能力等。

价值2:提升业务交付速度

对于提升业务交付速度,运维可以利用数据分析辅助业务决策、推进DevOps的自动化发布能力构建、搭建云化基础设施、建立系统退出机制等。这些手段的引入相应地增加了运维复杂性。以DevOps为例,DevOps的出现主要来自业务部门对软件产品或服务交付速度的要求,但更多是站在提升研发管理效率角度,给产品或服务质量、业务连续性保障工作带来冲击。这里的冲击不仅是运维需基于DevOps最佳实践理念在流程、工程项目角度进行建设,还涉及文化、组织、流程、工具、技术架构的全局建设。由于很多企业只引入DevOps理念,并没有考虑现有底子或缺乏全局性能力建设,DevOps落地效果不佳。为了有效落实DevOps,运维需要建立集中式IT基础设施,持续发布自动化工具链,针对互联网系统建立灰度发布机制,补充更加敏感的运行状态,利用运行数据反向推动应用技术架构的解耦,调整运维协同的组织架构,学习敏捷文化等。

价值3和价值4:辅助提升客户体验,提升IT服务质量

辅助提升客户体验,提升IT服务质量重点是让运维团队从原来被动保障的工作思维向主动提升的工作思维转变,比如加强客户体验数据分析,加强性能管理,建立IT服务质量管理机制,构建在线服务交付能力等。对于现在的运维团队而言,这些工作需要对组织能力、文化思维、角色定位、管理流程、平台能力进行重塑。要在现有人力资源基本不变的情况下进行价值创造,现有运维人员必然要想尽办法从简单、重复操作的工作中释放出来,深入业务,借助平台工具、运行数据等实现能力提升。

2.运维复杂适应性系统影响因素

图3-1总结了运维复杂适应性系统的影响因素。

图3-1 运维复杂适应性系统影响因素

技术架构 :业务迭代需求、商业模式创新、信息技术创新等可驱动IT服务质量的持续提升,但新技术与新架构的引入,让运维在新技术选择时机、技术成熟度、架构高可用性评估、对存量技术架构的影响评估,以及新技术与新架构附带的选择成本等方面面临挑战。

应用逻辑 :越来越复杂的业务逻辑关系、更细粒度的原子服务、外部监管政策要求的风险控制等让业务逻辑越来越复杂,引发新风险,以及新风险引发组织人员对应用逻辑知识掌握、产品设计、性能评估、故障应急、影响分析、故障定位等能力的新要求。

变更交付 :在线感知客户体验、更快的产品或服务创新、更快的迭代速度、更短的技术评审时间、更复杂的版本管理、无序的变更计划等驱动运维人员建设更全面的技术平台、协同模式,调整绩效考核等。

海量连接 :移动化、物联网、开放平台等新业务模式的引入,以及全数字化协同网络的产生,带来海量数据、海量连接、海量终端。海量连接节点大幅扩大了运维业务连续性保障范围,甚至重塑运维业务连续性保障定义。

操作风险 :外部网络攻击形势、政策法规要求、运维操作性工作大幅增加等带来更多操作风险。应对更多操作风险带来了更多自动化工具,自动化工具的引入又带来新的操作风险,以及人员操作技能下降。

协同机制 :DevOps、一切皆服务、技术运营等工作模式带来新的协同机制,如何选择合适的时机,有节奏地推进组织、流程、平台有序建设,考验运维平台体系建设者的全局设计与落地能力。

技能与文化 :新需求、新技术、新机制带来新知识,运维组织需要打造新的学习型文化以更快适应变化,学习型文化又会重塑现有人员岗位角色、岗位能力、知识培养等配套机制。

外部环境 :监管政策趋严、全线上监管等驱动IT运维精细化、在线化、远程协同能力不断提升,迫使组织在现有人力资源基本不变的基础上,分离更多资源进行精细化运维建设。

上述8个影响因素都能扩展出更为细化的点,任何一个因素都可能导致运维体系发生重大事故。

3.3 构建运维适应性系统

1.以螺旋上升方式建立运维适应性系统

运维体系是一个运维能力螺旋上升的适应性系统。为了说明螺旋上升的特点,以下参考亚马逊价值增长飞轮思路进行介绍。亚马逊价值增长飞轮的中心是亚马逊零售业务增长点,业务价值增长后带来更低的成本、更低的产品价格,进而打造体验、流量、卖家、选择的闭环,是一个螺旋上升的增长过程。同理,运维能力螺旋上升的主线是运维业务连续性保障水平提升、业务交付速度提升、客户体验提升、IT服务质量提升;能力的提升来源于更高(质)、更多(量)、更快(速度)的需求驱动。为了满足新的需求,运维组织快速引入新技术与新方法,避免通常会产生的风险;综合优化组织、流程、场景、平台,形成适应性能力;建立适应性能力后支持更高、更快、更多需求的实现。运维围绕需求、改变、风险、适应4个节点循环(见图3-2),提升能力。运维适应性系统的关键要素是组织、流程、平台、场景。下面以云原生架构为例,介绍运维适应性系统的成长飞轮。

图3-2 运维复杂性适应系统的成长飞轮

注:模型来自《技术的本质》与亚马逊增长飞轮。

需求 :充分发挥云计算的弹性、灵活、自动化优势,使得工程管理和基础设施管理变得更加高效和自治,从而将精力集中到业务创新中。

改变 :优化存量系统架构,制定新建系统技术架构评审要求,推动容器化基础设施平台建设,改造存量系统架构,加强微服务治理。

风险 :新技术引入的时机是否合适,新技术不成熟带来的风险,原有系统改变带来的风险,混合云环境和各种跨云/跨平台的运维操作、更加复杂的上下游链路关系,以及云原生技术架构开发人员技能不足带来的风险。

适应 :组织架构加强原来的云资源投入,运维人员学习云原生技术及应用上下游关系链路的技能,打造云原生技术中台及配套的协同机制,提升DevOps流水线的持续发布能力,提升容器PaaS平台的监控能力,构建自动化全链路性能压测、混沌工程等,形成一个针对云原生运维的工作场景。

2.数字化时代运维适应性系统解决方案的一般选择方向

适应性系统根据输入条件,采取不同的解决方案,但还是能归纳出一般的选择方向(见图3-3)。

图3-3 适应性系统解决方案的选择方向

(1)以业务为中心

应用上云解决了运维在基础设施层面的工作,运维平台减少了运维操作性工作,一方面让运维能够更稳、更快地实现,另一方面让运维人员从低价值的操作性工作中释放出来,更贴近业务、理解业务,利用数据分析提升业务连续性及客户体验,确保运维价值交付链路更加高效。以业务为中心思路尤其适合金融企业运维团队,金融企业运维团队人员流动性较小,适合业务经验的沉淀,不适合技术架构大幅度转变。所以,建立以运维开发为主的SRE团队可能并不适合金融企业,而应该打造以业务为中心的SRE团队,不断加深SRE团队对业务的理解,利用组织、流程、平台、场景能力建设,落实数字化运维价值创造。

(2)自组织驱动

自组织原指一个系统在内在机制的驱动下,自行从简单向复杂、从粗糙向细致方向发展,不断地提高自身的复杂度和精细度。在运维适应性系统中,企业需要建立一个柔性组织架构,达到学习型文化与组织持续改进的效果。学习型文化是在组织内建立学习、分享、沉淀、应用的学习闭环,以应对新技术、新架构、新系统、新业务带来的挑战。组织持续改进指在组织内形成一个清晰、统一、可理解的持续改进方法论,并让方法论快速融入日常工作机制。持续改进还需要组织加强横向优化型岗位建设,落实运维体系的目标管理、计划管理、时间管理、绩效管理。

(3)一切皆服务

云的自助式、所见即所得、按需获取、量化服务成本等特点,已在IaaS、PaaS、DaaS上得到验证。XaaS(一切皆服务)是运维组织的一个能力建设方向,建立服务目录,对运维能力标准化、标准化能力服务化,在服务目录发布,让业务人员能够像进入电商软件一样找到自己所需要IT支持的服务,并申请服务,在线获得服务反馈,同时利用社交化手段对服务水平进行评价,推动IT服务质量的持续提升。无论以客户为中心的企业整体战略,还是一切皆服务的IT服务目录思路,都是以人为本的延伸,利用线上化、数字化、自动化技术提升在线服务体验。

(4)自动化一切

自动化一切是将事件驱动思维模式融入运维的方方面面,可以从思维、技术两个角度发力。思维角度,即一线操作、二线运维、管理岗位对重复性、操作性工作有天然的排斥感,并想方设法用软件代替手工操作。技术角度,一是从运维工具层面建立运维原子脚本、编排任务、调度任务的自动化操作能力;二是将运维手工操作标准化,并将标准的运维操作场景化,基于场景将自动化操作与工作机制相结合;三是运维工作前移,推动应用系统自身自愈或无人值守的可靠性设计。

(5)数据赋能

数据赋能主要体现在利用运行数据,获得即时业务及运行状态的感知能力,以及自动化或半自动化的决策能力。具体来说,一是要实现运维协同网络工作的全在线,落地IT运营数据资产价值,利用运维数据平台强大的计算能力与扩展能力,实现数据的采集、传输、存储、处理、治理、反馈、消费的闭环;二是变现运维数据资产,将数据融入IT运维工作场景,为运维提供数据驱动工作能力,辅助决策制定,形成高效的执行力;三是利用自动化技术,提供人机协同模式,将可量化、可程序化的工作交给机器处理。

(6)场景在线

场景在线是在工作机制的基础上,整合资源,实现数字化。场景在线一是要场景驱动,基于场景的人、事、时间、协同、环境5要素,利用组织、资源,整合“监、管、控、析”平台能力;二是要在线,不仅是线上化,还强调即时协作、随时连接、落地数据资产价值。场景在线将收获业务标准化、流程化,是有序推动数字化持续建设的基础。

3.应对复杂数字化运维体系

数字化运维管理架构由“组织(Organization)、流程(Process)、场景(Scene)、平台(Platform)”4部分组成,简称为 OPSP 。在OPSP体系架构中, 组织数字化 重点围绕组织文化、组织架构、个人能力持续优化的数字化管理能力建设; 流程数字化 是通过“连接、数据、赋能”的数字化思维重塑运维工作流程,将制度规范、管理领导力、协同模式、资源配置等通过数字化技术在线化; 场景数字化 是基于场景驱动将线上工作中的“人、事、时间、协同、环境”连接起来,实现提能增效和智慧沉淀; 平台数字化 是支撑组织、流程和场景数字化落地的技术底座。

基于OPSP打造的运维能力框架见图3-4。

图3-4 基于OPSP打造的运维能力框架

1)持续优化 组织 能力建设,主要以运行保障、业务可用性/连续性管理、资源管理、信息安全为基础,扩展运行分析、业务运营、IT服务、系统退出、运维开发等横向组织能力,并建立学习型组织文化,推动组织及个人能力的持续提升。

2)围绕敏稳双态的思路优化工作 流程 ,吸收DevOps、AIOps、SRE、ITOA、ITIL、ISO20000、ISO9001等思想,结合连接、数据、赋能思维,由被动的流程管理向主动的IT服务、IT运营模式转变,标准化协同流程。

3)围绕时间,建立盘前、盘中、盘后、节假日等的运维工作 场景 ,打造人、事、时间、协同、环境为一体的线上场景,整合各类资源。

4)推动“监、管、控、析”平台体系向一体化 平台 演进,提高业务连续性保障水平;利用自动化手段替代手工操作环节,推动运维研发一体化(DevOps);利用运维数据中台及数字运营场景的建设,推动运维数据运营(ITOA);通过运维数据挖掘、学习,优化运维场景,探索运维智能化(AIOps)。

由于生产运行数字世界复杂度不断变化,大部分运维是一个持续优化过程,所以我们基于OADS方法论制定运维场景成熟度评估,具体如下。

线上化 ,将运维工作场景标准化、规范化、在线化,落地生产运行过程中的数据资产价值,比如线上化应急处置、监控管理、值班管理、预案管理、演练管理等。线上化是持续推动运维自动化、数字化、服务化的基础。

自动化 ,将规律性、重复性、操作性、大计算量的工作,从人工向人机协同模式转变,提升工作效率,降低操作风险,释放运维人力,比如使用巡检机器人等。

数字化 ,分析运维日志、监控性能、报警、配置、流程等数据,构建数据驱动的“感知、决策、执行”能力,比如实现重要系统上下游链路全景、交易系统的业务订单品种全景、业务状态感知、变更状态感知等数字化应用。

服务化 ,将底层“监、管、控、析”平台能力API化,以便用户通过可视化看板、数据指标、工具应用、IT服务台等,基于服务目录进行运维。

本书后面将按OPSP分适应性组织、全在线流程、赋能型平台、场景革命4部分进行介绍,在具体部分会融入线上化、自动化、数字化、服务化的能力分析。 BLprwDMdPPe8puRQk+fIoGduDUdyoicnJQpHfXlfIjqLzsO5W80rPhEvFhLZNxLJ

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开