韧性(resilience)一词源自拉丁语“resiliere”,最早在英文中的使用可追溯到17世纪初,意为“反弹的动作”(Act of Rebounding)。起初,它主要用于描述材料在外力作用下发生形变后恢复原状的能力,即回弹或弹性的概念。直到19世纪初,这一术语才逐渐演变成为技术上的专业术语。韧性一词最早在学术领域的应用始于材料力学,用以表示材料在受力后的恢复能力。随后,韧性的概念被引入生态学、社会学、经济学、心理学以及工程学等多个领域中。
Holling是第一位将韧性概念引入生态学领域的学者。他认为,韧性是生态系统的一个重要属性,使得生态系统能够在面对各种扰动和变化时保持存在,并保持种群状态的平衡。这一概念奠定了韧性研究在科学研究中的基础。Holling通过综述生态学领域的相关文献,提出了两种韧性特征的定义,即工程灵活性和生态灵活性。工程灵活性将生态系统视为具有单一的平衡态,而生态灵活性则认为生态系统可能具有多个平衡态,这为进一步探讨生态系统的复杂性、动态性和可持续性提供了基础。
在社会学领域,Adger将社会韧性定义为群体或社区应对由社会、政治和环境变化引起的外部压力和干扰的能力。而Allenby则将韧性定义为社会系统在面对内外部干扰和变化时,保持其功能结构并在必要时平滑地调整其性能的能力。加强社会系统的韧性意味着增强其应对恐怖袭击、自然灾害、传染性疾病以及其他外部压力和干扰的能力,尤其是在无法准确预测灾难发生可能性、时机和过程细节的情况下。
在经济学领域,Rose定义经济韧性为对灾害本能的适应性反应,使个人和群体能够避免一些潜在的损失。Perrings认为经济韧性是系统在面对市场冲击时仍能有效进行资源配置的能力。他还深入探讨了经济韧性与可持续经济发展的关系,并指出最具韧性的系统不一定在短期内具有最高的生产力。
韧性的概念最初从材料力学领域扩展到生态学、经济学、心理学和社会学等多个领域,并不断被重新定义。随着韧性在不同领域的广泛研究和关注,其实质概念更接近于描述一个物体或系统对干扰和变化做出响应并从中恢复的能力。在工程领域,随着工程系统韧性和韧性工程理论等概念逐渐被研究人员广泛接受、辨析和认可,韧性的应用迅速成为研究的热点,继而涌现出大量的研究成果。
Hollnagel、Woods和Leveson最早对工程领域的韧性概念和理论进行了研究,并于2004年在瑞典举行了第一次韧性工程研讨会,成立了第一个韧性工程协会(Resilience Engineering Association),将韧性定义为“系统或组织在早期阶段对干扰做出反应和从干扰中恢复的能力”。此后,韧性及其在工程领域的应用才开始引起学术界的广泛关注,许多工程学科的研究人员开始对韧性的需求、定义、度量、应用和仿真展开探索。然而,与非工程背景下的韧性研究相比,工程领域的韧性研究仍然只占韧性研究总体的一小部分。
各领域的研究人员经过长时间的思辨过程,从不同角度提出了典型的韧性定义,如表2.1所示。
表2.1 典型的韧性定义
在工程系统韧性领域,根据不同工程应用环境的特征,研究人员提出了多种韧性的定义。美国国家基础设施咨询委员会将关键基础设施的韧性定义为减小破坏性事件的影响程度和缩短事件持续时间的能力,评估基础设施或企业的韧性有效性取决于其预测、吸收、适应能力以及从潜在破坏性事件中快速恢复的能力。美国机械工程师协会将韧性定义为系统在遭受外部或内部干扰时仍能正常运行的能力,或者在正常运行中断后迅速恢复的能力。Haimes将韧性定义为系统在可接受的参数退化范围内能够承受重大破坏的极限,并能在可接受的时间、成本和风险范围内进行恢复的能力。Patriarca等则将韧性视为复杂社会基础系统的安全管理范例,强调处理复杂问题和平衡生产力与安全性的能力。
根据Holling和Hollnagel等提出的经典定义及相关研究工作,韧性可总结为系统在面对干扰或降级状态时仍能持续运行,并具备以最小支持度恢复到新的或原先状态的能力。此外,韧性的概念定义也与许多概念有一定的重叠,如适应性、鲁棒性、脆弱性、灵活性、迅捷性、冗余性、资源充沛性,可扩展性、生存性及可恢复性等。其中,鲁棒性和生存性与韧性的概念易于混淆,鲁棒性强调系统或组织抵御或克服不利条件的能力,而生存性更侧重当系统面对干扰时完成任务的能力。系统韧性则强调系统在面对内部或外部干扰时的抵抗、适应和恢复能力。对于装备体系而言,韧性更强调其在面对干扰后完成任务使命能力的回升。
综上所述,本书将韧性定义为体系的一种固有属性和能力,由体系的组成结构和维护资源共同决定装备体系的韧性能力。因此,用韧性来描述装备体系在内部失效和外部恶意攻击情况下继续完成任务使命的能力具有重要的研究意义。
2006年Hollnagel、Woods和Leveson等安全领域的专家联合举办了一次学术研讨会,讨论了韧性工程的现状与未来发展,并在此次会议的基础上合编了《韧性工程:概念与规则》一书。该书明确了韧性对于解决风险评估与安全性评估问题的作用,并概述了韧性工程这一概念。韧性工程相关概念如表2.2所示。
表2.2 韧性工程相关概念
从各类研究人员或机构对韧性工程的定义可以看出,韧性工程旨在通过系统设计和权衡决策,确保系统具备足够的韧性能力。这种方法强调对韧性进行科学化、系统化的研究与应用,属于一套系统工程方法论。一般而言,韧性工程涵盖系统韧性的识别、量化、评估以及权衡决策等关键步骤。
值得关注的是韧性在工程领域的应用状况。工程领域涵盖了与人、技术乃至社会生活密切相关的多个行业和系统,如电力网络系统、水运输系统、交通系统等,通常这些系统被称为社会——技术系统。目前,故障预测与健康管理、视情维修和动态重构等技术最能展示系统的韧性特征。在工程技术系统的韧性研究中,这些技术应受到重视。
1)故障预测与健康管理
故障预测与健康管理(Prognostics and Health Management,PHM)技术通过预知将要发生故障的时间和位置,预测系统的剩余使用寿命(Remaining Useful Life,RUL),从而提高系统的运行可靠性,降低维修成本,提升维修准确性。PHM通常包括故障检测和诊断、故障隔离、故障预测、健康管理以及寿命追踪等功能。对于复杂设备和系统,PHM技术能够实现多层次、多级别的综合诊断、预测和健康管理。目前,美军F-35战斗机上的机载智能实时监控系统和地面综合管理系统就是一个成熟的PHM技术应用的例子。这种多级系统信息综合的方法能有效评估飞机的安全性,实施技术状态管理和维护保障。
当前,对PHM技术的研究主要集中在系统状态监测和故障预测技术两大方向。系统状态监测依赖传感器信号和相关的健康监测技术来诊断系统的健康状态。早期的系统状态监测设计致力于最大化传感器网络的监测覆盖率,并设定最小化电能消耗的目标。例如,Castro-Triguero利用模态分析方法,评估模型参数的不确定性对传感器网络布局优化方法的影响。随着PHM技术的进步,研究重点转向了系统状态监测方法的多样化研究,如基于信号处理的故障诊断方法(如小波变换和主成分分析)、基于数学解析模型的方法(如状态估计法和等价空间法)、基于规则的专家系统诊断方法、基于神经网络的诊断方法、基于模糊数学的诊断方法以及其他人工智能诊断方法。而故障预测技术则侧重于对系统剩余使用寿命的建模方面,目前主流的技术和应用研究工作主要可以分为以下几种:基于模型的故障预测技术、基于数据驱动的故障预测技术和基于统计可靠性的故障预测技术。
2)视情维修
视情维修(Condition-Based Maintenance,CBM)是指在系统使用寿命内,将技术状况作为维修时机控制标准,为发现潜在故障而进行的维修活动,可以分为监控可靠性水平的视情维修和监控参数的视情维修。在PHM技术的基础上,开展视情维修可以有效保障系统的战备完好性与任务成功率,同时降低运营与维护成本。视情维修的优势在于通过加强和完善监测与控制手段,实时掌握设备的工作状态,及时发现问题并采取相应对策。这样可以预防一些故障的发生,及时控制和消除潜在问题,从而有效降低设备失效率,节约维修成本,缩小维修范围,减少维修工作量,提高设备的可用率,使维修工作变被动为主动。视情维修的研究主要集中在决策方法的确定上,主要包括基于数理统计的视情维修决策和基于随机过程的视情维修决策。
3)动态重构
动态重构是一种典型的装备体系韧性恢复策略,也是体系韧性的主要表现形式。动态重构最初由美国国家航空航天局(NASA)于1982年提出,是一种软件容错技术。现阶段,重构技术已被广泛应用于工业自动化和控制系统、自动化信息物理系统和体系当中。其核心思想是,当系统的任务或功能需求发生变化时(这种变化可能是主动的任务模式调整,也可能是被动的故障影响规避),系统通过重新组织资源的使用模式来保证任务和功能的持续有效运行。换言之,系统通过调整其自身配置来响应环境中的不同情况以改变其状态。
动态重构技术有时被看作功能硬件冗余技术的一种延伸,后者主要通过不同的体系结构(硬件互连结构)来支持系统的故障和容错性能力。这种技术的实施影响体现在系统成本、复杂性、可用性和硬件冗余等方面的平衡中。因此,动态重构技术也可以被视为可靠性技术的一种扩展,是系统主动对故障影响进行应对,以确保系统持续有效运行的重要手段。
动态重构和适应性可被定义为系统通过调整自身配置来响应环境中的不同情况以改变其状态的能力。动态重构和适应性也可以用故障容差来表示。在信息物理系统中,动态重构能力在很大程度上依赖于智能预测和诊断技术的支持,并允许系统发生安全失效,避免事故。因此,需要确保重新配置功能、预测和诊断功能能够正常运作,同时需要考虑到物理过程的复杂性和系统随时间的演变情况。
在民航领域,可重构技术主要应用于航空电子系统。Montano和Burger分别探讨了重构过程中涉及的人员和软件因素,并提出了一些度量和约束要求。近年来,研究人员在动态重构系统的设计验证方面也进行了多次尝试。例如,他们基于统一体系结构分析与设计语言对重构过程进行了建模与分析。然而,这些研究大多处于方法探索阶段,难以实现对航空电子系统的整体验证,并且其重构设计主要限于可预见事件的规范化重构动作,未充分考虑重构时间、配置等效率问题,无法有效指导重构系统的宏观设计。针对复杂装备系统或体系,Si等人研究了可重构系统中组件重要性的影响,分析了系统结构变化对组件重要性的影响。随着组件可靠性的变化,系统最优结构和配置也可能随之调整,同时组件的重要性受系统结构的影响。Li和Peng对具有随机动态重构特性的串并联系统进行可用性建模与优化设计,应用马尔可夫奖励模型和通用生成函数提出了一种计算系统可用性和运行成本的方法。Monnin等人构建了可用于装备体系结构的可再生系统可用性评估模型,他们利用状态空间和蒙特卡罗仿真方法,分析了系统在失效或被破坏后功能恢复的可用性。此外,Xia等人为可重构制造系统开发了新的动态机会维修策略,提出了一种可重构维修时间窗方法,该方法能够实时调度系统级机会维修,显著提升了维修策略的响应速度和成本效益。George-Williams和Patell分析了多状态可重构系统的可用性,考虑到系统的复杂拓扑结构、多状态性质以及相互依赖关系,提出了一种基于载荷流的仿真分析方法,用以评估系统的可用性。
随着对重构技术的深入研究,研究人员发现越来越多的系统或体系具备在自身发生故障、失效或遭受人为有目的的恶意攻击时,通过重构策略重新配置体系资源的能力,使得系统能够在干扰情况下继续完成任务使命,确保体系任务持续稳定运行。武器装备体系就是典型的具有动态重构特征的体系之一。随着体系规模的增大和能力需求的增加,各组成系统功能需求不断提升,各组件资源支持对象增多,导致系统状态空间显著扩展,各功能和资源之间的关联关系变得更加复杂。