某能源行业企业,由互联网部承担整体IT信息化建设和规划。在“十三五”规划期间,企业已基本完成了业务数字化转型,业务系统信息化建设也基本完成。“十四五”开局之年,企业内部进行了数字化建设规划,总结了信息化建设成果及存在问题。结合企业“十四五”规划和数字化转型要求,在采用新技术、提供新服务的同时,同步加强运维服务体系和运维技术能力建设。以组织职责优化、运维流程标准化为管理切入点,以资产全生命周期管理、统一监控告警平台建设、运维数据融合、智能客服平台建设、信息安全保障为技术切入点,制定符合企业实际现状及未来发展需求的智能运维体系规划。新的数字化建设目标是建设统一运维服务支撑能力,包括:
●一体化监控管理:提升基础设施、网络及系统、平台及应用的统一采集感知能力,实现对数字化资产实时动态采集、数据统一汇聚。
●资源全生命周期管理:实时在线监测预警、运维管理一体化、智慧客户服务。
●运维数据的有效利用:数据分析能够辅助领导决策部署及指挥调度,提高运维工作质效,提升用户服务效率和满意度。
该规划项目主要由该企业互联网部负责人牵头,下属各个团队处长、中心负责人、厂商咨询顾问、技术专家、解决方案专家,规划从项目开始至项目结束,四个阶段,历时6个月顺利完成规划定稿。
1.拉齐愿景:明确终点
在项目启动阶段该企业主要以明确项目的安排为主,沟通内部和厂商的资源投入,制定了整体规划项目实施计划。明确了项目目标、工作内容、项目资源投入情况、整体计划以及项目管理机制。一般笔者建议在项目启动阶段建议增加理念培训环节,保证项目组及企业内部认知意识统一,项目语言一致,为下一阶段现状调研做准备。
2.现状及痛点:明确起点
调研阶段主要目标是收集信息,主要方式以访谈加资料收集为主,该企业调研时咨询顾问要分多组同时进行,效率高的同时保证了不同来源信息时间戳的一致性。在调研阶段以咨询顾问视角对该企业数字化运维能力进行调研,收集共40余份文档资料,包括内部规章制度、运维报告、记录表单、规划报告等。开展访谈超30人次,涉及9个团队,访谈对象为领导、各个团队负责人、操作工程师、技术工程师以及用户部门代表。
通过对现状调研的结果进行汇总整理,并应用“数字化运维成熟度分级模型”形成《现状及差距分析报告》。
报告表示该组织还未达到“数字化运维程度分级模型”中的第二级。
四大维度的分项得分情况见表4-1:
表4-1 四大维度分项得分表
经计算,该组织得分为1.84分,处于辅助运维向一体化运维发展阶段。
报告表述该组织在管理能力维度主要存在以下问题:
●职责边界不清晰。
●缺少人员激励和晋升机制。
●服务台人员专业划分过细。
●人员流动对服务提供产生的影响较大。
●未能发挥服务台资源池的优势。
●缺少外包人员统一管理要求。
在技术能力维度主要存在的问题:
●九成以上业务系统未接入统一计算运营平台。
●监控不全,业务系统缺乏性能检测。部分机房设备未监控;设备硬件管理不规范,管理网段未隔离;动环监控、基础设施、云上资源监控未统一管理;缺少网络性能监控手段。
●缺乏数字化手段记录机房设备信息,当前采用原始方式对在运及库房IT资产进行管理。运维标签的规格无法统一,标签编辑内容局限,无法达到标识要求;不能实现快速盘点,无法快速对账卡物一致性进行核对;无法对机房机柜实时资源进行可视化管理,使用情况统计需要人工核算;数据中心资源统计分析困难,统计效率较低;监控系统发现故障后,无法关联到设备资产,不能快速定位设备位置。
●工单系统对内支撑不足,只在客服组内部使用,当出现客服组协调建设、网络、安全等其他组别时,需要线下将工单转入其他组别;目前的工单系统对用户端是关闭的,无法实现用户对自己提报的问题进行进度查看;运维过程积累的知识沉淀,用户查看率低。同时,因运维顾问自己记录自己使用,对团队进行知识赋能较差;当前工单记录内容简单,所能提供分析数据有限,无法起到运营分析及量化考核的目的。
●运维数据分散,系统以点建设,侧重解决特定专业领域和某一管理对象的具体需求,数据尚未融合和打通;需要加强对数据的应用,例如:数据对监控和告警的支撑,告警和设备的联动,故障原因分析,资产和管理项目的关联等;现有运维数据可以部分实现对设备运行状态管理,但缺乏数据的分析和应用,来支撑决策工作。
3.确定蓝图:体系设计
该阶段咨询顾问依据客户现状调研结果结合该企业提出的新的数字化建设目标,建设统一的运维服务支撑,进行细化以成为可执行的方案。规划设计过程中,顾问提出了“治数据、融场景、建平台”的指导原则(见图4-3),智能运维来源于优质的数据基础,以平台技术能力支撑用户的应用场景和需求;以运维需求场景为导向,通过制定数据管理制度、搭建数据平台实现数据集中管控;构建指标体系,建立数据保障机制,提升运维数据质量,实现数据资源交换共享,发挥数据价值,从而提升企业整体运维能力。
图4-3 智能运维体系规划指导原则
整体方案与调研结果分析保持一致,从“管理”和“技术”两个维度设计智能运维平台建设方案,提出优化组织架构、科学配置人员岗位、逐步开展制度建设、制定有效体系度量指标等相关建议;在技术层面提出搭建智能运维管理平台,支撑组织运维业务开展的方案。其中技术层面以最终实现系统稳定、业务连续、科学决策、精准管控的智能运维高效平台为目标的五个平台“运行监控平台”“网络管理平台”“资产管理平台”“客户服务管理平台”“运维数据平台”的详细规划(见图4-4)。
图4-4 智能运维体系详细规划蓝图
图4-5所示为该企业智能运维体系技术蓝图,整体思路是需要提升基础设施、网络及系统、平台及应用的统一采集感知能力,实现对数字化资产实时动态采集、数据统一汇聚。实现资产全生命周期智慧管理、实时在线监测预警、运维管理一体化、智慧客户服务。辅助领导决策部署及指挥调度,提高运维工作质效,提升用户服务效率和满意度。加强运维体系能力建设,能够帮助实现运维持续优化,匹配高效组织架构,科学地进行人员配置,以制度建设为核心,指标建设为输出,完善技术能力提升,规划运行监控平台建设,全面收集运维数据无遗漏,优化网络管理、设备资产管理,完善客户服务机制,提供客户服务接口,提升运维服务能力,汇总运维数据,对运维数据综合收集分析处理,开发运维数据价值,实现运维标准化、体系化、信息化、数字化和智能化,保障业务连续性,达到降低成本、提升效率、安全运行、客户满意、资源优化、风险可控的目标。以实现运维数据赋能业务,判定科学决策,精准管控,驱动组织数字化转型的目标。
●底层:完善基础设施监控。完善该企业信息资产管理,打造智慧运维可视化场景,建设智能仓库,降低人工盘点工作量,资产管理实时查看,动态客观。对于基础设施的监控建设向多样化发展,对核心、关键设备细节保障,例如,对于机房除常规温湿度状态量的监控,还应对环境风速、地板压力、虫鼠检测,气体浓度、光照等进行监控,打造整体环境—机柜微环境—IT系统监控的精细化、层析化监控。有效联动动力环境、IT设备、操作系统与业务系统。
●采集层:对运维数据进行初步管理。针对运维数据中95%以上为非结构化数据、实时数据和流式数据的特点,对于实时流数据(如日志数据、流量数据、性能数据等)通过工具便捷读取,再通过接口进行数据同步处理,在前端进行指标数据展现。以内存数据库Redis和HBase为主进行主要数据存储,必要的统计分析数据以MySQL等方式进行存储。使该企业能够实时从多个数据源中抽取新的数据,并在数据之间创建关系从而分析业务事件,可在毫秒(或更短)时间内对这些事件做出响应。
●数据层:开展运维数据平台架构设计。运维数据形成资产管理后可支撑运维数据中台建设。梳理基础数据目录体系和数据资源,在数据层开展数据治理及数据管理,数据资产管理模块功能可规划为:元数据管理模块、数据标准管理模块、数据质量管理模块和主数据管理模块。运维数据治理系统需要将广义元数据、广义数据标准、广义数据模型和运维主数据管理作为基本模块,同时形成运维的数据质量管理规则,并对数据质量加以控制。
图4-5 智能运维体系技术蓝图
●应用平台层:基于基础设施和数据采集清洗,未来数字化运维将包含5个主要技术应用平台,以满足企业数字化运维场景,统一运行监控平台、运维流程平台、自动化操作平台、智能算法平台、资产信息管理及可视化平台。关注数字化运维场景,多应用平台综合协同,提升用户感知,效率的提升,基于未来预期建设的技术平台,关注企业现阶段运维能力提升,关注是否有提升运维能力短板,补充关键资源工具。
4.制定规划:实施路径
智能运维能力的建设是一项长期而复杂的系统工程,为了避免后续建设混乱并实现资源有效利用,须进行整体规划,但为有效地控制风险,确保建设质量,也须进行分阶段、分步骤建设。实施路径设计与规划设计是同步进行,为了体现实施路径的重要性笔者对此做了拆分。在实施路径设计上该企业与咨询顾问经过沟通后将整体方案的实施拆解为三个阶段(见图4-6)。
图4-6 实施路径规划图
(1)第一阶段重点:智能运维初始化。2021年构建了运维能力基础工具,能够加强基础监控,保障资产信息化管理、资源精细化管理,全面监控,统一告警管理平台,整体运维资源得到有效利用,优先关键业务有了良好的数据基础和能力基础,构建可视化大屏,实现了关键数据实时更新查看,多方式、多维度地保障相关人员能看见IT系统,能够知悉IT系统,能够明确感知机器状态和整体健康度。重点建设任务包括:基础监控平台、统一监控、可视化大屏、资产管理、重建工单。
(2)第二阶段:智能运维场景化。2022—2023年,重点建设数字化运维核心流程,聚焦关键场景,覆盖80%运维场景的核心能力建设,实现数字化运维可以根据已有的数据对基本问题进行诊断,可根据已有的知识图谱完成一些基础级别、重复率高的数字化运维服务。初步利用数据进行简单的运营分析,可辅助IT发展的规划。此阶段,重点建设任务包括:应用性能管理、数字化运维指标体系、网络性能管理、网络自动化、客服运营数据分析。
(3)第三阶段:智能运维全面化。2024—2025年,在智能运维全面化的基础上,重点攻关20%运维焦点能力,充分挖掘数据价值,通过数据及时反映状态、内容、进程、链路和质量,开展数据质量管理,提高数据的完整性、准确性、一致性、及时性和规范性,不断提升数据分析的利用质效和管理水平,探索科学有效的控制方法和改进措施;多领域、分阶段、有计划、有步骤地深入研究提高数据价值,赋能信息系统的建设、使用和管理。此阶段,重点建设任务包括:日志监控与分析,智能客服、服务器自动化、运维知识图谱、故障自愈、容量信息管理。
智能运维体系建成后能够创新运维模式,筑牢本质安全,实现运维服务“面向业务与数据”的转型,完成“降低成本、提升效率、安全运行、客户满意、资源优化、风险可控”的目标,大幅提升运维服务水平,回顾项目目标的达成效果如下:
1.一体化监控管理
集成从应用系统、中间件、数据库、云资源、IT设备、网络及机房多层面监控工具,制定统一的监控指标体系,以业务和系统的维度构建监控指标链,形成了“端到端”的全面监控能力,主动监控和预检能有效降低系统故障率,核心信息系统可利用率提升;运行更安全,完善“事前、事中和事后”闭环管理有效防范重大安全事件发生。
2.资源全生命周期管理
建设资产设备从合同签署、验收、上下架、调拨、搬迁、盘点到报废的全生命周期的管理平台。通过对内部项目建设、设备盘点与清查流程的梳理,形成标准数据格式,建立资产台账快速地统计资产家底,未使用资产管理平台之前资产台账混乱且不易统计,统计一次家底的时间约为1周以上,使用资产管理平台后,通过首页的资产统计模块即可快速掌握家底,所需时间不到1分钟。硬件资产设备纳管率达到90%,出入库上下架工单流程使用率达到100%。
3.运维数据的有效利用
通过数字化运维服务管理平台的建设,完成了服务目录、服务级别协议、服务请求流程、事件管理流程、问题管理流程、变更管理流程、检修管理流程及日常工作所需的工单流程的建设和应用。在ITSM平台建成后,推广平台在内部使用与其统一的计算运营平台进行对接、单点登录,工单流程自用户至数字化部运维人员形成闭环,数据有记可查,规范流程,形成可度量的考核依据。业务工单的覆盖率达到90%,服务级别达标率90%,工单使用率达到90%。
通过2D可视化的呈现方式,实现管理人员的数据灵活交互,提高用户体验及管理效率,用户无须在机房内查看设备的分布情况及剩余U位的使用情况,可使用可视化功能代替用户前往机房的处理时间,未使用资产管理平台之前所需时间1~2天不等,使用资产管理平台之后约为30分钟。