技术运营(Technical Operations)是云服务最重要的关键之一,也是本书的重要组成部分。
在国内,技术运营称为“运维”。实际上,运营的概念比运维的概念要广泛得多,因为所有的技术和服务,都是为业务(business)而服务的。技术运营涉及客户满意度、服务成本和产品创新等。商务运营与技术运营,共同组成了运营(operations)体系,是整个业务的一大部分。
技术运营要确保7×24小时的服务生产运行,要保证数以十万计的客户同时得到满意的服务要求(SLA)。如果没有强大的技术运营体系的支持,云服务将不再是一个服务,只是一个内部的实验室的活动。
这部分将会围绕技术运营的双维模型框架(见图1-7)来讲解。双维模型框架是从一线的实践中总结出来的,最明显的例子就是,生产线的事故原因,一半来自技术,另一半来自管理。
在技术维度上,我们将讲解自动化体系、监控体系、高可用度等技术。
在管理维度上,我们将讲解7×24小时生产型服务运营中重要管理流程的原理和实践。
在双维模型中,我们将讲解横跨技术与管理这两个维度的数据能力(智能运营)和安全能力(安全技术与管理)等。
图1-7 技术运营的双维模型框架
技术运营是随着云计算的兴起而发展起来的。相比传统的研发和IT,技术运营是一个非常年轻的技术领域。系统性研究的缺乏和人才的缺乏是这个领域发展的最大瓶颈。在这部分的写作中,我们根据20年来的实践,做了比较系统的讲解,这也是国内关于云计算的书中在这个领域做系统讲解的第一本书。
技术运营部分的写作起步最早,也是本书中实践性最强的部分。这部分内容的作者是直接负责技术运营的高管和资深运营团队成员。下面是我们的一些实践经验。
这实际是生产的技术运营的第一原则。从统计的数字来看,生产线问题的原因一半来自技术和人员的管理问题,另一半来自技术问题,这也是提出技术运营的双维模型:“技术+管理”的原因。
生产线运营的目标是尽可能快的恢复服务,而不是找出引起问题的根本原因。这个道理听上去很简单,但是在处理事故过程中,绝大部分的工程师们都投入在找问题中,而不是恢复服务中。本书中的7×24小时生产线运营管理的思路就是以这个为前提的。
KISS(Keep It Simple and Straightforward)原则的核心是简单和直接。在讨论管理流程时,有一个事实是没有人可以避开的,那就是大家不愿接受流程。这是因为流程越多,执行中投入的精力越多,效率也越低。实际上,质量的提高要有流程来保证,而流程的执行必然带来效率在某种程度上的降低。因此,一个好的运营管理者要善于在其中找到平衡点,比如建立简单而有效的流程或最佳实践方法,这也是本书所要达到的目标之一。