运维数字化转型：构建四位一体的数字化运维体系最新章节_彭华盛著

Chapter 5
第5章
组织架构

未来，人工智能的发展方向既不是简单的人类制造、控制、利用机器，更不可能是取代人类，而是人机协同、人机共生。因为人和机器各有所长，互为补充，可以共同合作，建立一个更加美好的社会。

——张钹院士

不同组织或组织发展的不同阶段，组织架构形式各不相同，并没有哪一种组织架构是最好的，但有更合适的组织架构。比如职能型组织架构适合培养专业化职能、便于沟通、利于规律性过程管理，矩阵式组织架构利于跨职能团队协同、最大限度共享资源、适应变化。很多金融企业的运维组织是职能型与矩阵式相结合的组织架构。数字化技术与AIOps理念的推进，给运维组织带来一种全新的组织架构：人机协同。人机协同聚焦在通过机器辅助运维洞察、决策与执行，是在原来运维参与者的协同网络上，增加机器角色，形成人机协同的业务模式。人机协同的运维模式中最关键的角色仍是人，利用人的创造力，结合机器所提供的数据和算法，辅助人进行运维工作。人机协同将是AIOps的一个发展方向，未来运维组织将出现各种各样的机器角色，代替人做一些更加专业的工作。

5.1 常规运维组织架构

职能型组织架构是当前运维组织广泛采用的组织架构，有助于实现专业化分工，比如IDC机房、基础设施服务器、平台软件、应用系统等运维团队。随着组织精细化水平的提高，一些职能型组织会将有共性、操作性的工作独立出来进行自动化或由专业团队去做，以释放一部分人力。

1.职能型组织架构

随着业务及技术发展，我们可以预见未来IT资源对象、应用复杂度将呈指数级增长，业务服务质量要求、监控要求等将加大运维人员的工作量。与此同时，运维人员规模可能会相对稳定。如何在人员规模保持稳定的同时，满足业务发展要求，并创造更高效益，是运维组织在组织层面需要面对的难题。

鉴于运维目前仍存在大量操作性工作，上述难题可以转换为如何提高人员效率、降低操作成本，专业化分工则是解决这一难题的一个方法。专业化分工是由经济学家亚当·斯密在《国富论》一书中提出的。他认为，专业化分工能最大程度地提高工作效率、工作熟练度和判断力。他的论点包括：员工技巧因专业化而更加熟练，在分工条件下每一个人只从事某一种操作，就能成为“局部熟手”，不但能精益求精，还能减少技能的学习时间。专业化分工能节省劳动时间，这是因为分工使人员从事某种固定操作，有助于操作经验的积累、操作方法的完善以及效率的提高。

职能型组织的目的就是培养专业化职能，每一位管理者对直接下属有直接职权，组织中的每一个人只能向一位直接上级报告。专业化分工最重要的一点是做到职责、权利和义务清楚，打破不利于个体绩效考核的平均主义，是很多运维组织选择的组织架构模式。

运维组织通常按运维管理对象的不同，划分为几个职能型团队，比如：负责IDC环控相关机房的运维团队，负责基础设施网络的运维团队，负责硬件及存储设备等计算设备以及IaaS平台服务器的运维团队，负责平台软件的运维团队，负责应用软件的运维团队，以及负责其他合规、安全、调度等工作的运维团队。职能型组织架构中，各团队各自履行职能，管理权限集中，工作效率比较高。

不同企业会对职能型组织做一些整合与分解，比如根据组织层级关系，会将一些工作内容相似的团队做整合，像机房运维与基础设施网络运维团队的合并，服务器运维与平台软件运维团队的合并，平台软件运维与应用运维团队的合并等。同时，当某个职能团队大到一定规模时，该团队也可能会进一步按运维对象或技术类型拆分为更细的团队，比如应用运维按不同的业务对象划分为不同的业务运维团队，系统运维按技术对象划分为数据库、中间件、系统软件、PaaS平台等不同的系统运维团队。图5-1列举了金融企业常见的运维组织架构。

2.运维职能型组织架构的变化

随着工作量的增加、服务质量要求的不断提高，以被动、人工操作为主的工作越来越吃力，运维职能型组织不利于适应变化，容易出现一些弊端，比如：

图5-1 金融企业常见的运维组织架构

顶层管理理念与要求在落地过程中出现打折扣现象。

信息、经验比较难共享，团队间协同成本高，通用性、基础性自动化建设多以烟囱式模式开展，重复建设多。

缺乏统筹、持续改进的岗位，不利于某些工作主题的持续优化。

团队骨干、基层经理工作量与工作强度突出，成为工作瓶颈。

整个团队常规被动操作性工作太多，无法开展主动性、计划性工作。

针对上述问题，一些职能型组织会将有共性、人工操作性的工作独立出来，进行自动化或交由专业的团队去做。以金融行业的应用运维团队为例，一些组织会将应用运维分离出3类团队：一线业务运维团队、服务运维团队、稳定性运维团队。具体的职能与绩效指标如下。

一线业务运维团队为业务部门提供信息系统日常支持和问题处理服务，通过签订SLA、设置服务经理岗、制定IT服务目录等工作机制，建立服务交付和问题管理渠道，解决用户使用信息系统过程中的疑难问题，提供相关咨询服务。一线业务运维团队关注用户使用信息系统的操作体验，推动应用系统持续优化，内部仍按业务板块分成组，更加贴近用户。该团队通常以服务时效、用户满意度为绩效指标。

服务运维团队负责测试、预生产、生产等环境应用部署和运行管理并提供服务支持，根据生产发布上线流程，负责应用系统运行版本统一管理，通过7×24小时值班机制牵头生产系统突发事件快速处置。该团队通常以服务支持满意度、生产突发故障响应时效为绩效指标。

稳定性运维团队主要负责生产系统应急保障，通过主动、计划性的运维工作，持续研究提升生产系统稳定性的技术、流程、机制，并推动实施，确保生产系统稳定运行。通过参与应用系统交付过程，进行应用系统性能、技术应急预案等的规划和设计，管控应用系统上线发布、变更等相关环节，运维可提升应用系统可用性和运行效率。该团队通常以系统可用性、业务连续性等为绩效指标。

5.2 成长型组织

职能型组织很容易陷入习惯化、程序化的工作状态，对快速变化的软硬件生产对象的处理处于失控状态。适应性运维组织需要推动建立成长型组织，通过成长型组织的工作氛围和文化，不断学习，不断进步，不断调整观念，以应对变化。

1.成长型组织模式

外部环境越来越复杂，变化速度越来越快，客观上讲以不变应万变的思维已很难适用。作为数字世界的个体，需要紧跟时代发展，不断补充知识，接受变化，用正确的态度去面对困难、失败、挑战。

卡罗尔·德韦克的作品《终身成长》中描述了两种思维模式：固定型思维（或叫停滞性思维）和成长型思维。固定型思维的人认为：人之所以成功，主要是依赖天赋和能力这些先天因素，挑战和承担风险都可能直接暴露自身的不足，并表明自己的任务无法完成。固定型思维模式者认为，失败意味着自己是一个失败者，不具有这方面的天赋，他们不会从失败中学习并纠正自己，不愿意面对挑战，他们喜欢熟悉的工作领域，害怕新环境和未知的挑战。成长型思维的人追求成功与卓越，失败对他们来说也是痛苦的事，但与固定型思维的人不同的是，他们认为现状并不能定义一个人的成功，成功来源于后天的努力。这类人把时间更多地花在面对问题和处理问题上，并从中有所得，从而在新环境中获得更大的成功。他们会用动态的思维考虑问题，今天不能成功并不代表明天继续失败，过去的经验同样也不保证将来的成功。

成长型思维对运维组织至关重要。运维组织中有很多行为都是习惯化、程序化的。当组织经营方式、技术架构等发生急剧变化时，整个团队可能会出现盲目、迟钝、不知所措的情况。成长型组织通过积极面对的工作氛围和文化，建立评价组织管理能力的绩效指标，持续复盘生产事件、IT风险、变更管理等，并通过激发组织与个人的学习动力，用全新的视角去看待问题，从过去的失败中总结经验，从未知的知识领域中学习新知识并在工作中进行应用和创新。

2.PDCA循环

在管理领域，戴明推出的PDCA循环可以作为运维体系培养成长型组织的一个方法。PDCA循环分为4个阶段，即计划（Plan）、执行（Do）、检查（Check）、调整（Action），在实际工作开展过程中，把各项工作按照做出计划、计划实施、检查实施效果、纳入标准进行，并不断循环改进。这个思路引入企业运维体系的具体操作如下。

针对企业业务发展需求，制定运维体系的整体发展规划、举措，构建适应性组织架构与流程机制，并建立可量化的运营指标，作为引导组织能力持续提升的方向标。

围绕“组织、流程、平台、场景”四要素，依据专业化分工、标准化流程、平台化工具，推动精细化运维分析、业务服务、运营等维度的工作资源投入，激发员工的学习与参与热情。

在实际工作过程中，通过量化指标，结合主动性总结、归纳、分析，建立持续改进运维体系的协同模式。比如运维组织可以考虑在必要环节增加横向优化团队或岗位，推动组织与个人的能力提升；定期对流程的落地进行分析，围绕规章制度进行查漏补缺，删减不合理的流程规范，调整无法执行的规范要求；不断分析工具运营情况，提高应用覆盖率；分析场景建设是否在持续提升线上化覆盖面，自动化、数字化、服务化能力是否在持续提升等。

3.借鉴PDCA优化组织

将PDCA循环的思路应用于以运维纵向职能型团队为主的组织架构的建设上，可以基于现有组织将常规被动式基本运维保障转型为主动优化运维。专项、例行、可量化、可交付、专业、协同等关键词是组织转型的切入方向。图5-2提出了职能型运维保障分离出的运行分析、运维开发、运维服务、集中操作、横向管理、业务运营等能力。这些能力能起到以下作用。

图5-2 职能型组织优化

将同类操作性工作从职能型组织中分离出来，比如服务台、数据集中维护、数据提取等，通过集中操作提高这类工作的效率，获得更大的投入产出比。同时，集中、标准化处理还能降低操作风险。

职能型组织减少操作性工作后，可以从被动式工作中节省出一些时间处理计划性、主动优化类工作，比如压力测试、性能管理、容量分析、客户体验运营等。

针对整个运维团队进行一些统筹性建设工作，比如自动化工具建设，提高工具间的互联互通。统筹建设有助于获得更大的投入资源，以及收获更大的效益，减少重复建设。

对于一些管理、技术手段，一些运维横向团队可以进行持续的监督与优化，有利于规范化、标准化工作落地，比如变更管理、故障分析、可用性分析等。

4.金融企业的SRE案例

一些企业为了解决应用运维工作琐事多、长期被动救火的现状，对应用运维团队进行优化，成立了SRE团队。下面介绍一个金融企业的SRE案例。

在计划环节，设置应用运维团队信息系统稳定性要求，设置SLO。重点包括两点：一是梳理重要信息系统与非重要信息系统，针对重要信息系统细化SLO，聚集优势资源在重要信息系统上，而不是平均分配资源；二是围绕底线的稳定性目标——故障管理与软件交付，持续优化故障管理与软件交付效果相关的各项工作。

在执行环节，根据计划环节的SLO进行细化，将原来应用运维团队涉及的应急管理、容量规划、性能优化、架构优化、交付与退出工作独立出来并成立SRE团队，比如：针对应急事件的事前、事中、事后周期管理，应用系统上线、准入、评审、发布、退出下线，主动性架构性能、容量评估分析，以及围绕稳定性相关的工程性工具研发工作；同时，将原来应用运维团队的一线服务台服务处理、知识管理、常规业务支持、问题咨询、数据维护、参数修改、数据提取、监控监测、环境维护等工作独立出来固化为标准化工作事项，成立服务型团队。在人员分配上，由于SRE团队涉及的职责对主动运营要求高，企业可将一些主动性强、对技术有研究的人员分配到SRE团队，聚焦在故障风险提前发现、故障快速解决、软件交付稳定等稳定性指标上。服务型团队主要选择适合面向IT服务、业务功能性知识的沉淀、沟通、操作、执行的人员，聚焦于IT服务质量与客户体验的提升。

在检查、调整环节，SRE团队与服务型团队分别需要关注关键的评价指标，包括应用可用性、故障平均修复时间、软件交付效率与成功率、服务响应效率、工单一线处置率。通常，SRE团队重点对以下方面进行持续优化：生产对象的监控，对故障的预测、发现、感知、辅助定位，主动性的数据分析，应用架构管理的前移，软件发布工具与流程等。服务型团队重点推动语音服务台和线上机器人的知识库、数据维护、数据提取等工具与流程的持续优化。

5.运维能力模型

运维能力的评价基准界定很难，但又很重要。很难，是因为不同企业的运维组织定位、规模不一样，没有一个标准的运维能力模型；很重要，是因为如果对运维能力没有评价基准，组织只能靠主观来判断某个团队或个人做得好还是不好，可持续改进的效果将大打折扣。为了说明运维能力模型，下面借鉴信息技术服务运维能力成熟度模型（以下简称为“ITSS运维成熟度模型”）来做简要介绍。不同运维组织可以借鉴ITSS运维成熟度模型的几个分级进行定位，并参考成熟度对应要求，结合自身特点细化团队及个人能力要求。

基本级 ：体系有，即实施了必要的运维能力管理，日常运维工作有序运行。

扩展级 ：体系全，即实施了较为系统的运维能力管理，形成了较为完善的人员、流程、技术和资源方面的管理制度，并得到落实。

改进级 ：协同好，即以整合能力为主，组织的运维服务能力发展战略清晰，形成了完善的运维服务体系，综合运用ITSS能力标准，建立协同运行能力。

提升级 ：量化管理精，即实现了运维变革、可量化的运维能力管理，推动业务发展变革。

上述4个能力成熟度的级别是一个持续改进的过程，结合前面提到的PDCA循环持续优化理念，可以分为计划、执行、检查、改进4个步骤。

计划：根据自身业务定位和能力，对人员、资源、技术和过程进行规划，建立相适应的指标体系和服务保障体系，确保有能力提供运行维护服务，并进行持续优化。

执行：按照运维整体策划实施，确保能力管理和服务实施过程可追溯，服务结果可计量或可评估，提交满足质量要求的交付物。

检查：检查运维服务管理活动是否符合计划和质量目标，定期评审服务过程及相关管理体系，以确保能力的适宜性和有效性。

改进：弥补运维管理过程中的不足，持续提升运维能力。

借助ITSS运维成熟度模型，组织能够在多方面对运维能力进行评估定位，持续提升运维能力。

5.3 人机协同赋能组织架构

“人机协同”是一种全新的运维模式，这个模式围绕洞察、决策、执行的闭环，既要完成大计算、海量数据分析、提升体验等工作，还要对现有的“专家经验+最佳实践流程+工具平台”运维模式进行补充。人机协同模式以数字平台化管理为依托，让组织具备“洞察感知、运营决策、机器执行”闭环能力。

1.人机协同运维模式

AIOps的研究及应用正处于爆发期，很多运维组织正在统筹规划和全面引导，未来发展空间巨大。人工智能在运维领域有几点优势：一是工作稳定性高，可不知疲倦地工作，在分析规律性问题时不受环境影响；二是操作风险低，能取代部分传统手工操作，有助于避免手工操作带来的遗漏、误操作等；三是决策效率高，可以快速对海量运维数据进行筛选和分析，帮助管理及一线运维更高效率地做决策。

虽然人工智能技术优势明显，但面对复杂、多变、信息不完全的环境，特别是具有高风险的金融领域，仍不能替代人，更多地应用在某些特定弱人工智能领域，在运维场景中主要用于故障发现、故障定位、报警收敛等方面。随着数字化能力的持续建设，笔者认为未来运维组织将呈现人机协同运维模式。 人机协同聚焦在通过机器辅助运维洞察、决策与执行，是在原来运维参与者的协同网络上，增加机器角色，形成人机协同的业务模式 。人机协同运维模式最关键的角色仍是人，利用人的创造力，结合机器所提供的数据和算法，辅助人进行运维工作。

阿里巴巴的曾鸣在《智能商业》一书中提到：数据智能强调运营决策直接由机器决定；看由人操作的环节能不能由机器直接代替是评价公司智能化水平的有效标准，只要能被机器替代，就是智能商业的一次质的飞跃。若要打造人机协同的智能运维模式，运维组织必须具备持续提升的风险控制能力，必须加快IT交付速度，提高IT服务质量，优化用户体验。人机协同运营模式需要发挥运维专家与机器人的特点，基于“数据+平台”管理，建立新的智能运维模式。人机协同模式具有以下几个特点。

“数据+算法”为运维专家赋能，实现实时感知、辅助决策 。人机协同模式首先是让机器赋能运维专家，让运维专家具备更强的洞察力与决策力。以往，无论日常应急处置、变更评审、架构管理等基本保障，还是运营效率、性能、体验分析，都是以专家经验驱动为主。机器进行数据分析可以释放人力，让运维人员具有实时感知能力与决策能力。

增加运维机器人岗位，辅助人进行工作 。机器要发挥稳定性高、不知疲倦、决策与执行准确性高、海量计算等优点，重塑“操作性”“规律性”“大计算”“7×24小时”等类型的工作。重塑与自动化操作有一定的区别：自动化是模拟人的操作，自动重做一次；重塑是要建立机器人岗位，要从机器人优点角度重新设置岗位，比如设立专项巡检机器人、监控处置的一线机器人岗位，或设立具有平台管理督促、智能服务台的横向管理职能的机器人岗位。重塑就是要发挥机器的优点，让机器做人不想做的与人做不到的事，并做得更高效。

建立平台化管理，落实决策 。平台化管理在前面提到过，即平台利用数据、算法承担管理上的一些工作，包括建立在线组织协同机制，线上化组织协同工作，为管理提供数字化的洞察、决策、执行，让每个人的工作过程可观察，以便管理者知道协同参与对象的能力水平，制定有针对性的人员能力提升策略，并基于在线数据制定一些平台化管理方法，帮助员工提升个人能力。

2.人机协同的组织架构

首先，梳理一下人机协同的组织架构具有的6个重点能力：

实时获知现场情况。

关联分析事件发生原因。

智能预测未来会发生什么情况。

判断采取什么措施。

自动快速执行决策。

实时感知工作执行的效果。

上述6个能力需要运维组织建立持续优化的人机协同的体系架构，这就要从数字化运维体系的组织、流程、平台、场景角度重新设计（见图5-3）。

图5-3 人机协同的体系架构

在组织层面，设立运维专家与机器人岗位两类角色。运维专家将规律性、海量计算的工作标准化，不断训练和构建机器人；机器人具备在线运维工作能力，并在协同中不断提升洞察、决策、执行的准确性和及时性。在线机器人不是模拟一个人完整的技能，而是承担某领域内“操作性”“规律性”“大计算”“7×24小时”等类型的工作。

在流程层面，形成围绕运维最佳实践流程与AI赋能流程两类流程管理模式。最佳实践仍以ITIL、ITSS、ITOA、AIOps、DevOps等理念为主，建立运维标准化工作流程。AI赋能流程则要以人工智能技术赋能流程，形成智能决策大脑，比如虚拟服务助理、知识图谱、自动化服务决策与处理、智能工单等。智能化手段将对原来一些需要人工审核的节点进行简化、精准化。

在平台层面，形成传统“监、管、控”工具平台与AIOps两个平台。“监、管、控”工具平台包括监控、管理、自动化三类工具。AIOps平台重点围绕“数据、算法、平台、场景”进行构建：数据以运维体系指标为输出，形成可复用、可共享的指标管理；算法是人机协同智能运维的“大脑”，是经验转化的载体；平台要支持“采、存、算、管、用”的技术支撑，确保可落地。当前，我们还不能达到从面的角度进行智能运维，比较好的方向是以场景驱动构建人机协同运维模式，再将场景进行整合形成全面运维。

Chapter 5 第5章 组织架构

5.1 常规运维组织架构

5.2 成长型组织

5.3 人机协同赋能组织架构

Chapter 5
第5章
组织架构