购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.1 从运维管理到工具体系的建设逻辑

3.1.1 运维管理和工具体系的关联分析

运维管理的本质是基于管理需求来描述一个主题领域的运维业务。例如,如果我们要实现企业的高效、高质量的投产发布,满足业务的敏捷性管理需求,则需要进行信息系统投产发布管理。在这个主题领域中,需要拆解业务活动,业务活动由角色、流程、活动和业务域关联组成。

例如,以下是对投产发布的业务描述:

1)角色:以应用为维度,角色可以定义为发布经理、发布工程师、领导和技术专家(研发、基础设施等人员)。角色背后映射了职责和能力要求两个关键要素。

2)流程:由投产计划、程序验证、投产评审、投产执行和应用验证等核心流程组成,每个流程可以进一步展开到具体的角色活动中。例如,在投产评审流程中,需要根据不同级别的变更分配不同的评审角色,并涉及方案评审、风险预估和回退方案验证等活动。

3)活动:活动是指针对目标对象的操作任务集合。在投产发布中,涉及发布申请、任务编排、发布执行、检查验证等活动。活动必须由两部分组成:对象和操作。例如,在发布执行活动中,对容器化应用实现一键发布更新,对二进制应用实现一键程序包分发和服务启动等。

4)业务域关联:业务域关联用于定义边界和外部业务之间的关系。例如,投产发布本身不需要考虑监控告警的建设,但是在投产发布前后,与监控告警有密切的关联。例如,在投产发布前需要进行监控告警和异常检测,在投产发布中需要进行告警屏蔽,在投产发布后需要进行监控告警和指标对比。

但是,我们是否已经清晰地定义了所需的工具体系呢?答案是否定的,因为我们需要从运维业务的角度转换到产品和软件的角度。因此,运维管理抽象为运维业务,是工具体系建设的起点,而工具体系是承接运维业务和运维管理落地的一种能力。运维业务与工具能力的关系如图3-1所示。

图3-1 运维业务与工具能力的关系

业界对运维的看法有两种,一种是认为运维的本质是管理,另一种是认为没有工具带来的生产力变化,运维无法有效进行。这两种看法都有道理,只是视角不同而已。接下来,我们需要进一步思考:基于一个相对清晰的运维业务设计,如何将其拆解为工具体系?有哪些好的原则和经验方法?

3.1.2 从运维管理到工具体系的拆解模型

在建设运维工具体系时,我们需要确定建设多少种、什么样的运维工具。这需要我们回到运维管理的源头,思考运维的真正价值,例如生产稳定运行、用户服务满意度、IT敏捷提升、政策监管合规等方面。

1)生产稳定运行:通过组织、流程以及ITOM工具,确保信息系统的稳定运行,进而保障业务的连续性。这是运维工作的基石。

2)用户服务满意度:所有的可用性保障措施最终都必须以用户服务的形式呈现,无论是对内还是对外。因此,服务设计、SLA、服务交付、服务运营等方面都是用户感受到的价值。

3)IT敏捷提升:传统的运维工作并没有强调敏捷性,但随着业务和技术的变化,对运维的要求不仅仅是稳定性,更需要高效的响应能力。因此,推动IT敏捷的要求涌现出来,DevOps、自动化、平台工程等都是为了提升IT敏捷性的关键技术和工具。

4)政策监管合规:某些行业或大型企业需要满足行业监管机构或总部的管理规定,以保证运维的价值。这方面的运维工作并不仅仅是为内部服务,还包括银行资产数据上报、业务连续性管理、灾备应急管理等。

从运维管理的角度切入工具体系的建设,最关键的是确定运维业务主题、运维活动和运维操作。我们将这个过程称为运维工具建设的分级分域模型,如图3-2所示。

图3-2 运维工具建设的分级分域模型

以信息系统可用性管理这个运维最核心的领域为例,我们可以用这个模型做如下分析。

1)运维价值:保障业务生产稳定运行。

2)运维业务主题:信息系统可用性管理这个业务主题是采用主动的策略,减少已知事件的发生,如消除单点故障,采用被动的策略,发现未知的事件风险。它涉及架构管理、灾备应急管理、监控告警、故障分析定位、事件管理、运营改进等子领域。

3)运维活动:以监控告警为例,包括资源监控、应用监控、业务监控、告警事件等活动。

4)运维操作:以告警事件为例,包括告警事件标准化、告警收敛、告警事件分级、告警处置等。

因而,当考虑需要建设什么样的工具来满足某个运维业务主题落地时,最核心的要求如下:

1)基于价值驱动的运维业务主题设计。从业界通用的运维领域来看运维业务设计,我们可以将运维业务设计的主题主要分为两类:服务管理和技术管理。服务管理是数据中心为相关利益方(主要是数据中心外部)提供真正体现数据中心价值的服务的管理过程;技术管理是从数据中心内部发展角度,为服务提升提供前瞻性、系统性的技术创新研究的管理活动。服务管理包含配置管理、变更管理、事件管理、投产管理、问题管理、应急灾备管理、监控管理、操作管理等;技术管理则包含架构管理、运维开发管理、数据管理等。还有一类与运维相关的主题,称为通用管理,如软件产品管理、知识管理、财务管理、供应商管理等。

2)基于运维业务的运维活动设计。以确定的运维业务主题进行设计,可拆解为与角色职责关联的运维活动,即目标对象和操作任务集合。目标对象大致可以分为面向资源、面向应用、面向业务,操作任务集合可以分为安装部署、运行监控、运行操作、分析评估、流程协同等。

3)基于运维活动的运维操作设计。到运维操作设计时,就要进一步拆解运维活动的关键操作,例如对资源进行运行监控是一个关键运维活动,操作则包括监控对象接入、指标采集、指标检测、告警通知、视图展示等。

4)基于人、系统的关系支撑运维场景。运维业务主题、运维活动、运维操作,再结合人、系统的交互,就较好地拆解了一个运维业务主题的落地场景,涵盖通过工具解决的问题、通过人解决的问题。例如,事件管理这个业务主题涵盖事件接入、事件诊断、影响分析、事件解决、相关方沟通、事件关闭、持续改进等活动,进而人与人的交互可以通过流程系统完成,人与系统的交互可以通过告警、巡检、自动化处理等系统完成,而相关方沟通、持续改进等则是通过日常管理动作来闭环。

3.1.3 运维工具体系的建设方法与原则

运维工具体系的架构建设较为复杂,需要经历运维业务设计、运维活动设计、运维软件设计、工具体系整体架构改进、持续建设与运营等过程,并且要解决运维对象的异构化、管理场景的复杂度等问题,所以并没有标准答案,但是有好的实践可以供我们参考。从实践经验的角度,我们总结一下运维工具体系的建设方法与原则。

1)理解和定义业务:工具体系建设的来源是运维业务,运维业务的要素包括角色、流程、活动、业务域关联。没有运维业务的定义,就无法有效跨越软件功能和管理落地之间的鸿沟。

2)工具体系承载运维活动:从业务架构到功能架构,中间的关键设计是运维活动,运维活动是由目标对象和操作任务集合组成的。

3)功能设计:按对象、接入、逻辑、界面4层展开,功能边界就是单主题运维活动设计的边界,没有领域和边界的设计会造成功能的堆叠和混乱;而领域之间的集成,则能较好地支撑场景联动。

4)技术架构要满足最大化复用、可扩展设计:采用平台化架构的思想和模式,抽象运维能力、消费运维能力,持续建设和发展。 yf4xOZql14FaCaSST2vkHT9QnRiC4P5MavAL+U75EVuFj/Am8EfFOhBhyyhrBM7V

点击中间区域
呼出菜单
上一章
目录
下一章
×