近年来,伴随着巨大自然灾害、人为事故的发生,国家政策及法律法规的调整变化,运营中断风险已成为企业必须应对的重大风险之一。越来越多的企业开始评估可能引发中断的威胁和中断可能造成的影响,采用包括购买营业中断保险、制定业务连续性计划等在内的多种风险应对措施。
通常而言,风险应对策略主要包括风险承担、风险缓释、风险规避和风险转移4种。风险承担策略也称风险自留策略,是指组织理性地主动承担风险,即一个企业以其内部的资源,如风险准备金、自有资本等来弥补损失。风险缓释策略是指通过风险控制措施来降低风险的损失频率或影响程度,抑或直接降低风险敞口。风险规避策略是指通过变更来消除风险或风险发生的条件,从而保护目标免受风险的影响。风险转移策略又称风险转嫁策略,是指组织将自身面临的风险转嫁给交易对手以保证自身的利益,主要手段有购买保险、业务外包等。
在业务连续性管理发展早期,人们只是用购买保险这种风险转移策略来主动管理运营中断风险。随着人们对各种导致运营中断的风险的认识的加深,以及可用管理方法和工具的完善,人们逐步发展出技术手段、管理过程、管理体系方法等不同的风险应对策略。这些不同的策略并无高低优劣之分,只是解决的问题与适用范围不同。
业务连续性管理不是由理论推导出的产物,它从由业务驱动的企业客观需求起步,在发展过程中不断吸收相关管理领域的方法、技术。事实上,业务连续性管理是对围绕着“业务不中断以及中断后迅速恢复”的目标开展的一系列活动的统称。其实际做法全是“拿来主义”,如风险评估、预案、演练等,都是从风险管理、IT灾难恢复、应急管理和危机管理等领域中“拿来的”。业务连续性管理在实践中还涉及设施管理、供应链管理、质量管理、环境管理、健康与安全、知识管理、人力资源、安全保卫、危机沟通与公共关系等更加广泛的内容。其在概念方面从最初的IT灾难恢复发展到业务连续性策划、业务连续性管理,再到今天的业务连续性管理体系,逐步形成了自己的独特方法。下面简要介绍与其联系紧密的相关领域。
• IT灾难恢复,侧重于在发生由自然灾害、恐怖袭击、设施损坏、人为失误等引起的灾难事件造成IT运行中断后,如何进行IT恢复和重建,主要用于数据和信息系统的保护。
• 应急管理,即突发事件应急管理,侧重于在面对影响社会或企业业务发展和运营的突发事件和危机时,如何进行应急响应和处置。
• 危机管理,侧重于在发生灾难或突发事件时,如何保持组织内外部联络畅通,以及诸如政府、媒体等公共关系的协调。学术领域的“危机管理”近似于实务中的应急管理,而实务领域的“危机管理”侧重于舆情危机管理和沟通。
• 风险管理,侧重于识别企业面临的潜在威胁以及这些威胁可能造成的影响和损失,以在可接受范围内安排预防和控制措施,在实务中多用于风险的预防。
20世纪90年代,虽然业务连续性管理从IT灾难恢复中独立出来,但是两者仍联系紧密、相伴发展。究其原因,主要有两点:其一,两者采用几乎相同的方法论,只是面向的对象一为信息系统,一为组织的运营活动;其二,有相当多组织的业务连续性管理仍需要以IT灾难恢复为基础。但到了今天,两者又由于相同的原因面临不同的变局。对IT灾难恢复而言,由于云计算等新兴技术的快速发展,其面向的计算技术环境快速变化,传统的方法难以适用于大量中小企业。对业务连续性管理而言,侧重于基于业务重要程度确定业务连续性策略、建立业务恢复预案的“补丁式”业务连续性管理方式,在组织运营/经营环境的快速变化和数字化转型浪潮中渐显疲态。对于业务连续性管理的未来发展,我们主要有以下两个判断。
技术是IT灾难恢复的基础。随着云计算、虚拟现实、超融合、DevOps等受到越来越多的重视和应用,传统的IT计算环境在发生变化,IT灾难恢复也需要顺应这种变化。
在IT灾难恢复和业务连续性管理已各自独立发展近30年后,仍有大量的IT灾难恢复产品和服务商标榜自己是业务连续性管理产品和服务提供商,用这种方式误导用户。这不仅表明两者的方法论基本相同(面向的对象不同),而且证明了“业务”在IT中的重要地位(提到“业务”更易申请预算),以及IT灾难恢复的号召力仍然不足。
金融业是较早进行IT灾备建设的行业之一。严格的监管和巨大的资金投入(“两地三中心”)从整体上提升了金融业IT服务的可用性水平,但距离最初的预期仍有不小的差距。因此有行业专家开始质疑巨大投入的效果不佳:“为什么花了这么多钱搞灾备,大小IT中断事件仍层出不穷?”这从另一个角度说明了IT灾难恢复方法需要改进,传统的IT灾难恢复方法是从大型机、小型机和微机时代发展而来的,与当前的分布式计算环境已不再适配。
互联网行业的朋友说,“我们没法儿做业务连续性管理。你们做一次完整的风险评估和业务影响分析,再确定策略、编制预案,这一轮工作做完,几个月就过去了。我们这边业务迭代和调整很快,可能两个月后业务就被取消或者转变方向了。”国外也有专家说过:“在做风险评估和业务影响分析时,业务还是‘苹果’,等编制完预案,业务已变成‘橘子’了。”
在实务中,互联网公司在超大用户访问量的基础上保持了相当高的服务水平,其背后是大量的技术创新,涉及以下方面(此处仅提供初步分析)。
• 预防。在设计IT系统的架构时,注意系统之间的松耦合和微服务的原子化,即尽可能按高韧性的要求设计网络和系统架构。
• 准备。关注人员的能力和意识(培训、演练),保持预案的实时更新,进行全面的监控和预警。
• 响应和恢复。统一的分级响应事件管理机制,经典的IT灾难恢复思想和方法在这方面仍大有用武之地。
同时,DevOps和敏捷方法等的运用,有助于信息通信技术(ICT)支持快速变化的业务。恰如当年IT灾难恢复的发展,推动了业务连续性管理方法的诞生。这些已被证明和仍在发展(如混沌工程)的行业实践应该被总结到ICT连续性管理方法中,并为业务连续性管理未来的发展提供新的思路。
业务连续性管理向运营韧性演变已是业界共识,国际灾难恢复协会、国际业务持续协会、国际组织韧性联合会等国际知名机构近年来陆续发表声明、宣言,并不遗余力地推进组织韧性的发展,国际标准化组织在2017年也发布了ISO 22316,但关于组织韧性的框架、方法和技术仍有待进一步探索。
一般来说,组织韧性是一个组织“吸收”和应对变化的能力,包括从中断中恢复的能力。业务连续性管理有助于理解价值是如何在组织内创造并加以维护的,以及在创造和交付这些价值的过程中存在的依赖性或脆弱性之间如何建立直接关系。组织韧性这个概念包含了多种管理职能,比业务连续性管理的范围更广。业务连续性管理是实现组织韧性的工具,两者并非一个层面的方法。
而运营韧性是一个组织在中断中交付关键业务的能力,是从有效管理运营风险中获取的结果。显然,综合考虑服务外包、技术依赖性等的业务连续性管理会更自然地向运营韧性演变。也有看法认为运营韧性的本质就是“做对了的业务连续性”。
前面提到过,业务连续性管理在发展的过程中,与IT灾难恢复、应急管理、危机管理和风险管理联系紧密并从中吸收了不少“营养”。目前,这几个领域也在往前发展,如风险管理领域新兴的反脆弱思想强调反脆弱类事物不只受益于混沌,也需要适应出现的压力与危机,如此才能维持生存与实现繁荣。在ICT领域,许多公司(包括网飞、谷歌、亚马逊、IBM等),都采用某种形式的混沌工程来增强现代架构的可靠性。运营韧性在成长和成熟的过程中,仍会吸收不同领域的最佳实践并与之相互促进。