在整个规划的过程中,难度最高的环节是价值输入,而其中“现状和痛点”的识别对于运维组织来说尤为困难。一方面,作为“局内人”由于习惯了组织中的既定机制,所以很难客观看待现状;另一方面,对于各类事务的好坏缺少指导性的参考标准。为了解决这个问题,笔者给出一个“数字化运维成熟度模型”作为参考,帮助组织有效评估当前现状并识别出问题和痛点。
数字化分级运维成熟度模型是一种基于现代运维管理理念和数字化转型需求的评估工具,模型基于评价技术和方法学,结合管理经验进行成熟度能力评估的模型和方法,通过采取调研问卷的方式实施,旨在帮助组织全面了解其运维管理水平,为组织设计可行的智能运维实践路线提供依据。
两千多年前,秦始皇统一六国的一大贡献,就是统一度量衡,制定了统一的计量单位。如今大多数组织的运维体系正从被动激活式、问题驱动式的经验操作式运维向“主动精细化、价值驱动型”的智能驱动式运维转型。在这个转型的关键过程中,对于组织运维水平的量化评估变得尤为重要,而标准化的评估成为不可或缺的工具。
标准化的评估能够提供客观、科学的评估指标和方法,帮助组织全面了解其运维现状,找出存在的问题和潜在挑战。通过明确统一的计量单位,组织可以进行实际数据的收集和比较,从而了解其运维水平在行业或同类组织中的地位,发现优势与薄弱之处。
在智能运维体系的高阶化转型升级中,标准化评估具有“持续化”和“纵深化”的双重属性。通过持续性的评估,组织可以跟踪其运维水平的变化和发展趋势,及时发现并解决问题。而纵深化的评估则意味着它为组织提供了一种有标准可依、有尺可量、有径可循、有具可用的综合指引,指导组织在运维体系升级和转型中找到最合适的工具和方法,设计出最适宜的升级框架和实施路径。
数字化运维分级成熟度模型是通过多年来在为不同客户服务过程中积累了丰富的运维转型实践经验,结合现有模型和标准体系,基于智能运维国家标准组的指导,汇集数百家国内外头部客户的运维体系现状,研究开发了面向新场景、适应新形势、具有普适性,且符合中国市场的智能运维分级成熟度模型及其测评工具,致力于推动国内运维实践工作发展。
数字化运维分级成熟度模型将智能运维演进路线分为从Level 0到Level 5的六个阶段,分别从业务用户体验、运维组织管理、流程管理、工具应用、数据管理和应用平均故障恢复时间等几个维度,描述了每个阶段的运维管理特征,同时为每个阶段的演进提供了相应的关键提升手段,具体如图4-2所示。
Level 0(人力运维阶段):该阶段的运维较为原始,运维人员疲于解决各种故障,监控工具有待建设,工具短板有待补齐,需要借助专业工具实现实时监控并发现异常或故障、及时告警。
Level 1(辅助运维阶段):该阶段通过工具辅助监控与实现部分告警,但工具使用未形成闭环,有待构建和优化数字化运维管理体系,包括对组织架构、岗位角色、管理制度、流程、考核指标、运维工具的整合规划,以实现人与工具的有效结合,最终保证服务交付的准确性和高效性。
Level 2(一体化运维阶段):该阶段集成整合各类工具,IT服务管理功能较为完善,但仍需要进一步引入运维中台的理念,以推进运维数据的统一采集、存储、分析和治理,为初步实现智能运维打下基础。
Level 3(初步智能化运维阶段):该阶段已引入运维中台,联动并打通了运维服务管理的全流程,可对运维数据加以分析,但有待引入机器学习和算法模型,以实现智能决策。
图4-2 数字化运维分级成熟度模型架构
Level 4(高度智能化运维阶段):即已建立由算法驱动、可对故障进行预测,诊断乃至自动处理等工作,但有待充分利用流程挖掘,超自动化技术(RPA),以及人工智能化。
Level 5(完全智能化运维阶段):即达到理想的自治状态,即系统能够无人值守、故障自愈、自主优化,同时可做到远程接管等。
笔者通过该模型调研了多家企业,发现目前我国大部分企业的运维成熟度仍略低于平均水平。这意味着国内的智能运维发展刚起步,未来面临的挑战无疑是巨大的,而数字化运维分级成熟度模型不仅可作为各行业实践智能运维业务发展的参考,还可以帮助企业更准确地评估自己在运维方面所处的阶段,进而推动运维在中国市场的快速发展和落地。
基于数字化分级成熟度模型,从其评估维度、成熟度阶梯、方法论等,设计了运维成熟度调研问卷,该问卷用于初步了解组织的运维成熟度。通过填写该问卷,可以大致评估组织的运维能力,并确定其在各个方面的成熟度水平。评估结果对于后续运维体系规划至关重要,一方面可以对制定有效的战略和规划提供有力的依据和指导;另一方面,通过调研结果可以发现组织在运维领域的潜在短板和改进空间,识别具体的改进建议和行动项。
1.运维成熟度调研问卷
在做成熟度评估调研时,问卷是常用的工具之一,建议从以下4个维度设计调研问卷:业务用户体验、运维组织管理、运维流程管理、运维数据与知识管理。
(1)业务用户体验 因为所有的技术和管理手段都是为最终的组织业务发展服务的,衡量业务发展的一个关键要素是用户体验,良好的用户满意度是数字化运维建设具有成效的重要标志。
(2)运维组织管理 组织管理是数字化运维的一项关键能力。伴随着信息技术不断成熟、运维场景日益复杂,需要通过科学的组织管理适应新的智能运维建设,确保IT服务持续产生价值,组织建设可以从岗位职责、人才能力、考核体系等因素着手。
(3)运维流程管理 清晰、高效、敏捷且符合标准的流程是运维面向规模化与效率化发展的关键,组织需要规划和设计覆盖广泛的运维及IT服务管理场景的流程体系,组织也需要专业和强大的IT服务管理工具落地最佳实践,同时面向组织高效和高质量执行与协作,适用的自动化运维以及不断的流程优化是确保持续改进的重要抓手。
(4)运维数据和知识管理 “以数据为基础、以场景为导向,以算法为支撑,以知识为驱动”已成为构建和实现智能运维的业界共识。智能运维一定来源于非常好的数据基础,同时如果没有明确的业务场景,所谓的智能化就是为了AI而AI,也是没有意义的。工程化算法是要拟合数据的,根据数据和场景需求才能选择或研发合适的算法。为切实落地企业的智能业务运维规划,一方面要强调运维数据的基础作用,另一方面要形成运维数据管理与应用的全局体系,围绕规划、系统与实施三个核心阶段工作,面向运维数据的全生命周期与业务导向结果,从数据的整体规划、运维数据平台、CMDB、指标管理体系等规划与实施建立数据典型应用场景等多角度进行思考。
2.组织运维成熟度评价报告
借助数字化运维成熟度分级模型设计调研问卷,对组织进行综合调研。基于该评价模型,为每个组织生成一份专业完整的评估报告,该报告包括业务用户体验、运维组织管理、运维流程管理和运维数据与知识管理四个维度。报告将在这四个维度上进行评分,形成综合评估结果,并以直观方式展示组织当前的运维成熟度等级。通过这份报告,组织可以全面了解其当前的运维成熟度等级,并获得针对具体问题的适当建议。同时,该报告还为组织后续提升运维成熟度等级提供了输入和依据。