动荡时代最大的危险不是动荡本身,而是仍然用过去的逻辑做事。
——彼得·德鲁克
数字化时代给运维组织及个人带来了一些颠覆性变化,云原生技术架构、DevOps、AIOps、NoOps等理念不仅让运维组织产生了“运维是否正在消亡”的焦虑,也给运维人员带来了挑战。幸运的是,以业务价值为方向标,基于数字化技术、管理的赋能,充分利用协同网络、数据智能、一切皆服务、员工赋能,运维组织就可以构建一个适应性数字化运维管理体系。同时,运维组织要借鉴领先行业的数字化运营管理模式,在线协作,围绕“洞察、决策、执行”的闭环数字化能力,持续进行平台化管理。
当前大部分IT部门仍是企业中的成本部门,运维组织承担了IT部门中后台支撑的角色,在组织定位层面得到的资源支持不如其他中前台部门。同时,被动响应、操作性、7×24小时值守等特点,也使运维个体对职业发展产生了困惑。
1.运维基本工作范围
运维的定义为:企业IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT软硬件运行环境(软件环境、网络环境等)、IT业务系统和IT运维人员进行的综合管理。从上述定义看,运维岗位需要综合性的技术与管理能力,并掌握大量方法论与技术。金融行业的运维基本工作通常包括如下几部分。
运维规范的落地 :基于内外部管理制度要求,借鉴ITIL、ISO20000、ITSS、DevOps等方法论,结合组织禀赋落地运维规范。
监管机构要求的落地 :理解、快速响应、落地监管机构的管理及工作要求。
运行基本保障 :配置管理、监控执行、应用发布、资源扩容、事件应急、问题跟踪等。
职能线基础保障 :网络、服务器、操作系统、数据库、中间件、JVM、应用等运维基本保障。
IT服务交付 :服务目录、服务台、业务咨询、桌面维护、经验库、SLA等服务交付。
可用性管理 :巡检、业务系统连续性、可用性、基础架构及应用系统的高可用性、备件冗余资源等。
风险、安全管理 :生产操作、信息安全审计、监管风险、漏洞扫描、攻击管控、攻防演练等。
故障管理 :事件的事前演练、混沌工程、功能评审,事中的申报、处置、定位、恢复、验证、解释等,事后的复盘、问题跟踪管理等。
IT需求交付 :全在线、自动化的应用变更,系统软件、计算服务、存储服务等的交付。
主动运营评估 :架构高可用性、性能管理、容量管理、客户体验等主题的评估分析。
应急演练 :评估异常事件、业务故障等发生时的架构可用性、人员协同性等。
业务支撑 :数据维护、数据提取、参数维护、配置管理等。
运营业务 :挖掘数字化业务运行状况,促进业务痛点的发现与解决等。
成本控制 :数字化投入管理,评估人力、硬件、带宽、软件投入,推动成本节约专项工作等。
运维开发 :建设运维“监、管、控、析”平台、数字化运维场景,培养运维开发能力,营造工具众创的文化。
2.组织之痛
运维团队容易被其他团队认为是以简单操作性工作为主的团队,在企业资源投入方向不受重视。随着信息技术与业务的发展,运维组织的痛点越来越明显。下面从外部客观因素和内部因素两方面分析金融企业运维组织痛点。
(1)外部客观因素
在数字化时代,金融企业运维组织面临业务规模不断扩大,业务竞争越来越激烈,监管要求越来越高,数据规模呈指数级增长,大量开源架构、创新技术的应用取代传统的系统架构等挑战。
运维组织在企业内的定位 :绝大部分运维组织是一个成本部门。企业对运维组织的重视程度通常不如开发组织,更不用说前台业务部门。定位角色决定运维组织规模无法跟上业务增长。以Google为例,在《Google SRE运维解密》一书中提到,由于Google的数据中心规模急剧扩大,系统越来越复杂,而运维人员规模又跟不上,SRE承担了Google运维管理。
业务对运维服务质量的要求 :越来越多的业务从线下走到线上,为了赢得更多用户的青睐,一方面要求应用性能高,功能稳定,另一方面对应用交付速度提出更高要求。前者需要设计更复杂的系统,后者需要更高效的应用发布支持,两者都会给系统响应效率、稳定性带来影响。
外部监管要求 :长期以来,为了防范金融风险、保障投资者与客户权益,监管机构对金融企业保持强监管。近年来,监管机构对金融企业信息技术的稳定性、规范性的监管有增无减。在强监管下,信息系统的稳定性有了进一步提升,并对运维组织提出高要求,客观上加大了运维管理精细化程度以及相应的工作量,同时规范流程引发工作效率下降。
业务并发要求 :信息系统用户量增加、营销活动不断推出、突发性行为,对信息系统处理能力提出了越来越高的要求,而企业不断引入弹性平台,以及大量分布式、开源架构替代传统、相对成熟稳定的架构来满足性能管理需求,这些变化都给运维组织带来了挑战。
数据中心规模扩大 :多数据中心建设、云化、去IOE、分布式与云原生架构的引入使得应用系统规模、数据规模、硬件成倍扩大,应用架构复杂性不断提升。
创新技术引入 :创新技术的引入给运维带来了极大挑战,包括创新技术在性能、可靠性、稳定性上的不足,生态不完善,以及对创新技术人才的引入、培养。
(2)内部因素
根据调查数据,在整个运维成本的分配中,软硬件和网络设备的维护成本占30%,维护服务成本占30%,内部运维人力成本则占了40%。这里的人力成本包括维护培训、流失与引入等成本。如果将维护服务成本也纳入人力成本,人力成本将上升为70%。人力成本的影响因素如下。
评价运维能力的模型 :虽然ITIL、ISO20000、ITSS、DevOps是运维领域比较成体系的方法论,但在量化运维人员具体能力方面比较难落地,也就是说很难从量化角度评价运维人员绩效,相关评价通常比较主观。如果组织管理者对于绩效评价做得不到位,容易引发运维人员不满,影响运维人员提升技能和工作效率的动力。
平台化管理 :组织扩大到一定规模后,以口口相传、个体责任心、工作习惯为主的方式容易出现操作风险,且无法量化绩效,管理规范无法落地,需要借助数据驱动能力,建立平台化管理能力。
人机协同工作模式 :IT软硬件体量庞大,且增长迅速,手工操作任务太多,运维数据越来越多,故障定位越来越难,对人工经验的依赖性高,监控手段不够及时、全面,应用发布、资源交付效率低,没有主动进行性能分析等。这些痛点驱动运维引入人机协同工具,对引入的机器人建立适应性管理机制。
“千禧一代”员工成为骨干 :“千禧一代”员工的特点与运维管理者成长背景有很大差别。传统运维管理方法的特点是标准化、流程化,如何调整运维管理方法,赋能这些个性更加突出的员工,让他们发挥更大的价值,是每个管理者需要思考的命题。
人才管理 :运维组织以纵向职能型为主,能够培养全能型、经验丰富的专家人才,这些专家人才利用经验能快速解决职责下的常规问题,且效率比较高,适合小型的组织。随着组织不断壮大,面对的问题越来越复杂,技术要求越来越多,这种专家人才不能满足要求。
运维目标 :运维目标往往以被动式为主,比如被动处理故障,被动解决问题,被动提供应用交付,被动节省成本等。这种被动式运维目标导致计划性工作不够,缺乏持续不断的自我优化,不利于运维组织主动提高效率、质量,降低成本,并向主动运营转变。
3.个体之痛
运维人员同样面临不少挑战,包括工作时间、工作压力、学习压力、职业发展等。
7 × 24小时制的工作时间 。运维人员通常要在节假日值班或在家通过VPN远程操作或远程指导进行故障应急。运维人员的上班时间与普通工作时间不同,为了不影响业务,应用发布、基础设施变更、演练等工作会放到晚上,对客的业务系统运维还可能安排到深夜。
高压工作 。“如履薄冰”很好地形容了运维人员的工作状态,因为任何一个生产操作都可能给业务带来影响,所以运维人员工作必须十分谨慎。同时在运维故障处理过程中,运维人员需要面临来自业务人员、客户、开发人员、外部的各层压力,但须冷静地完成故障处理,处于高压的工作状态。
被动地工作 。在缺乏主动分析、优化、预测性的工作的背景下,运维人员大部分是被动地工作,负责应急救火、打扫战场、收尾。
对工作的认识 :程序问题、硬件问题、系统软件问题、业务需求问题等都需要运维人员去解决,而且这些问题对业务可用性的影响还需要运维人员承担,运维岗位会有“背锅”的感受。
职业压力 :运维岗位主要和机器或系统软件打交道,所以相对于开发、项目管理等岗位,转型机会面比较窄;同时,运维工作中重复操作性工作占比多,如缺乏引导容易让运维人员麻木,失去持续改善的动力;另外,前面也提到运维人员需要掌握的技能和管理理念很多,对运维人员的学习能力要求很高;最后,从与业务远近的角度看,运维人员不如研发、产品人员,容易产生重要性低的错觉。
针对运维之痛,领先的运维组织积极寻求破解之法,驱动组织架构、岗位、能力的转型。为了更好地统一组织各方在转型过程中的步调,我们需要抽象数字化举措的关键词。本章抽象出“数据、连接、服务、赋能”4个关键词,作为指引构建运维数字化体系的方法。
1.常见的运维转型方向
运维转型方向总结如下。
从操作性运维向运维平台化转型 。通过建设“监、管、控、析”运维平台,基于数据感知、工具平台建立人机协同运维模式,提高效率,控制风险,释放人力。
从被动救火式向主动运营转型 。以数字化为目标,通过整合、治理、提炼运维领域的各类数据,再在数据之上分析,并结合工具,让运维组织全面掌控业务运行状态,辅助管理者做决策。
从依靠经验向人机协同驱动运维转型 。基于运维数据,结合人工智能算法,解决基于专家经验运维的不足,提升监控、管理流程、操作、运营方面的效率与精准度,让机器能够承担部分专家的工作,形成人机协同工作模式。
要实现运维转型,企业需要利用好数字化能力,赋能组织管理。
2.数字化运维关键词
进入数字世界,运维组织在管理上面临以下问题:如何数字化系统运行状态、客户体验,并针对运行问题,更快地做出决策与执行;如何在快速交付IT需求与生产运行风险之间达到平衡;如何围绕核心价值链,基于价值链与测试、开发、产品、业务、合作厂商等协同连接;如何将能力标准化、服务化,并对外提供在线服务,在线获得服务,在线得到反馈;如何激活员工,提升员工生产力,激发创新。
要解决上述问题,运维组织需要建立数字化运维模式。图4-1总结了数字化运维4个关键词: 协同网络、数据智能、一切皆服务、员工赋能 。
协同网络 。运维过程中的参与者既包括IT部门内部研发、运维、测试、产品、项目人员,各类横向的流程经理、架构管理者等,也包括IT部门外部业务部门、分支机构、厂商、外包合作方等。将参与者在线化,产生互动连接,将形成一张数字化协同网络。协同网络将促进人与人、人与机器、机器与机器等节点间的互动在线化、透明化,能够有效加强运维管理精细化,提升协同效率。
图4-1 数字化运维4个关键词
数据智能 。数据智能实现了协同网络工作在线化,加强了节点的有效连接。实现数据智能主要分3步:一是实现运维协同网络工作全在线,落地运维数据资产价值,并利用运维数据平台强大的计算能力与扩展能力,实现数据的采集、传输、存储、处理、治理、反馈、消费;二是变现数据资产,将数据融入运维工作场景,为运维提供数据支撑,形成“感知、决策、执行”闭环,包括实时感知系统运行状态,得到业务部门的需求,辅助决策制定,形成高效的执行力等;三是利用自动化技术、人机协同模式,将可量化、可程序化的工作由机器辅助处理。
一切皆服务 。云的自动化、所见即所得、按需获取、量化服务成本等特点已在IaaS、PaaS、DaaS上得到验证。XaaS(一切皆服务)是运维组织在IT服务管理方面的转型方向。在运维组织内部将运维能力标准化,形成服务目录,可方便用户找到自己需要运维支持的服务,并申请服务,同时在线获得服务的反馈,并利用社交化手段对服务水平进行评价,推动IT服务质量的持续提升。
员工赋能 。运维组织是一个知识型、创造型、学习型团队。运维从业者是协同网络中的核心节点,是数字化转型过程中的关键因素。数字化时代,企业需要培养一支能够紧跟新时代、新国情,能够敏捷应对不断变化的环境,并具备技术创新能力的团队。运维组织要为员工提供全数字化的工作环境,激发员工积极性,提升员工生产力,激发创新。
3.数字化赋能运维组织管理
外卖平台的管理模式是运维组织管理的一个典型例子。在外卖平台的运营模式中,后台运营管理、骑手、平台组成了一个管理三角。业务订单通过平台推送给骑手,骑手接单后,平台实现骑手、顾客、饭店与订单的连接,再将运营管理规则通过数字化手段由机器触达骑手。骑手的收益、绩效实时体现在平台上,不需要线下管理,所有的管理都通过数据、智能算法在平台上实现。外卖平台这种平台化管理模式也适用于数字化运维组织。图4-2从平台化管理、在线化组织协同、数据赋能组织、服务化组织、持续优化5个方面分析数字化对运维组织管理的赋能。
图4-2 数字化赋能运维组织管理
1)平台化管理 。上述外卖平台的运营模式是典型的平台化管理模式。外卖平台是一名管理者,不存在传统管理者,实现了对百万名外卖骑手的高效管理。平台化管理包括指导、评估以及奖惩激励3个方面。
平台给骑手派单,指导他们如何派送。
消费者评估骑手的表现。
平台根据消费者的评估决定奖惩。
对于运维组织,平台在“析”层面落地领先的AIOps算法与数据“采存算管用”的能力,在“控”层面落地自动化执行能力,在“管”层面落地流程机制,在“监”层面落地感知能力。企业基于上述平台能力,构建可落地的平台化管理能力。
2)在线化组织协同 。在线化组织协同能够数字化协同对象与协同过程,是数据驱动运维管理的基础。运维协同对象主要包括人、机器、软件,其中人又包括运维职能团队中的一线、二线管理员,运维开发、流程经理等,以及运维职能团队以外的开发、测试、业务、客服、客户等;机器主要是物理设备,从软件定义的角度看,机器可以划为软件,软件可划分为基础设施、平台软件、应用软件,以及支撑运维的ITOM、ITSM软件。借鉴外卖平台的协同方式,在线化组织协同就是要让这些协同对象数字化,并让协同线上化。对象数字化可以借鉴CMDB进行协同对象的属性定义,并建立对象间的关系;协同线上化则以运维价值交付链为驱动,构建运维工作场景,利用场景整合平台和协同对象,扩大覆盖面,提高在线化程度。
3)数据赋能组织 。运维组织面临的环境越来越复杂,依靠专家经验或自律性的管理已经力不从心。平台化管理能让管理可穿透,无须多个层面的信息传递,使管理更加客观、准确、扁平。数据赋能组织重点围绕运行感知、辅助专家决策、跟踪决策的执行,这是一个基于数据驱动管理的闭环。基于协同线上化,管理层可以在线感知运维工作状况,员工也可以基于数据在线向上反馈一线的观察。数据又能为管理层决策提供支撑。结合大数据技术,管理层能够分析海量数据,发现以往靠经验很难发现的规律。有了数据驱动制定的决策,下一步是让决策有效落实,一方面决策线上化后才能让决策留痕、可跟踪,另一方面可以尽量将标准化、规律性的决策自动化。
4)服务化组织 。基于IT服务管理模式,利用服务价值链交付思维,构建运维服务供给双方的交付能力,真正实现IT服务管理。一方面,运维组织将日常工作能力标准化,抽象成可交付、可衡量、在线化的IT服务;另一方面,服务需求方可以在线检索,获得需要的IT服务。对于管理而言,将服务交付过程在线化,有助于衡量服务交付质量,并基于服务交付质量数据持续优化IT服务管理。
5)持续优化 。数字化运维结合平台化管理,可建立学习型运维组织,让每个人的工作过程可观察,辅助管理者了解协同参与对象的能力,并基于现状制定更好的人员培养机制;同时可基于在线数据,制定一些平台化管理方法,比如能力积分排名等游戏化的方法,让员工了解自己的知识水平,帮助员工提升个人能力。