造成产品不可靠的因素是多方面的,既有客观上的因素也有主观上的因素,既与技术水平有关也与认知水平及管理水平有关。我国的可靠性工作开展了五十多年,取得了很大的进步,各领域、各行业对产品可靠性的重要性认识也慢慢提高。在很多的产品设计、开发过程中,都开展了可靠性工作。但是,要提高产品的可靠性是一项非常艰巨的任务,它不仅需要管理者的重视、技术人员的参与,还需要各环节人员将可靠性工作视为一项系统工程。可靠性工作要与实际的产品相结合开展才有意义。
从工程视角来看,可靠性工作可理解为使产品保持无故障状态完成规定功能所实施的一系列活动。GJB 451B对“可靠性工程”的定义是:为了确定和达到产品的可靠性要求所进行的一系列技术与管理活动。可靠性工程涉及产品可靠性要求论证、可靠性设计与分析、可靠性试验与评价、使用可靠性评估与改进,以及产品寿命周期可靠性管理等内容。
可靠性工程贯穿产品寿命周期从概念、方案设计、样机研制、生产、使用到报废处置各阶段。它涉及原材料、元器件、设备和系统等各个方面。不同的产品,可能在开展可靠性工作时,会有不同的侧重点,即有所区别。
可靠性工程是装备系统工程的一个重要组成部分,它包括:确定可靠性要求、进行可靠性管理、开展可靠性设计与分析、实施可靠性试验、验证和评价可靠性要求以及改进可靠性等一系列工作。可靠性工程活动的目的是使产品在使用中不发生或少发生故障,达到要求的或更高的可靠性水平,为此,必须掌握产品故障发生的规律和机理,通过设计、分析、试验、管理、合理使用等途径,控制和预防故障的发生。在产品研制时应更强调通过设计、暴露(如通过试验或分析等手段暴露故障或缺陷)、再设计的过程,使产品设计得更“健壮”。
GJB 450B—2021《装备可靠性工作通用要求》(简称GJB 450B)规范了可靠性工作内容,提出了5大系列的可靠性工作项目,分别是可靠性要求论证、管理、设计与分析、试验与评价、使用可靠性评估与改进。图1-2概括梳理了GJB 450B中规定的工作项目,包括5大系列、37个子项。
装备可靠性工作是指应用工程化的方法、技术和专业知识,通过策划与实施一系列技术与管理工作,识别、消除故障或降低其发生概率,以达到装备的可靠性要求。装备可靠性工作是一项综合性、系统性的工作,它需要各部门之间共同努力和密切协作。
装备可靠性工作的目标是在现有技术水平、进度、费用等条件的约束下,通过一系列活动确保新研和改型装备确定合理的可靠性要求,并达到规定的可靠性要求,保持和提高现役装备的可靠性水平,以满足装备系统战备完好性和任务成功性要求,降低对保障资源的要求并减少寿命周期费用。
图1-2 可靠性工程主要工作
装备可靠性工作贯穿装备寿命周期,从论证立项、工程研制到列装定型,涉及原材料、元器件、设备、软件、系统和装备体系等各个方面。
造成装备不可靠的因素是多方面的,既有客观上的因素也有主观上的因素,既与技术水平有关,也与管理水平有关。装备可靠性水平的提升不仅需要管理者的重视与技术人员的参与,而且要与装备研制工作结合开展才有意义。一般而言,装备可靠性工程包括可靠性管理工作和可靠性技术工作两方面。
1.2.2.1 可靠性管理工作
可靠性管理工作范围很广,包括可靠性规划制订、实施该规划所需的人力物力资源调度、实施可靠性规划的体制以及可靠性标准规范制订、可靠性教育培训、可靠性信息反馈等。
可靠性工作是一项综合性的技术工作,它需要各部门之间共同努力和密切协作。由谁来组织各部门之间的平衡和协调?由谁来下达可靠性任务?由谁来制订可靠性计划并督促实施?由谁来组织可靠性审查?这些都涉及可靠性管理工作。在任何机构里,凡是与可靠性有关的各项措施都必须自上而下地贯彻执行,也就是说,可靠性管理工作,不光是管理人员的工作,应该全员参与。可靠性管理工作在可靠性工程中起着决定性的作用。“三分技术,七分管理”恰如其分地说明了管理工作的重要性。只有加强可靠性管理工作,才能提高产品的可靠性。某厂为了给工程上提供一批高可靠性的元器件,并没有引入什么新的技术装备,只是加强了管理,把技术上过硬的熟练工人调到专用生产线上,并且组织有关人员在每一道关键工序后进行严格的检验,最终使筛选淘汰率从10%~20%降到1%~3%,达到了较高的可靠性水平。据统计,1996—2000年美国80%的装备都达不到要求的可靠性水平,为此,美国国防部一方面深入改革防务采办的政策、程序和方法,另一方面积极制订可靠性标准。如2008年,美国信息技术协会发布了GEIA-STD-0009《系统设计、研制和制造用可靠性工作标准》;为贯彻和落实该标准,2009年颁布了MIL-HDBK-00189A《可靠性增长管理手册》。随着可靠性工程的不断发展,装备的可靠性工作项目越来越多,与其他工作的接口越来越复杂,可靠性管理工作更显其重要性。
除了工作项目的管理外,可靠性信息管理也是可靠性工程中的重要环节。可靠性信息是指有关装备的可靠性和费用等数据、报告与资料的总称。可靠性信息管理是对上述信息进行收集、传递、处理、贮存和使用等的一系列活动,是可靠性管理工作的一项重要工作。
可靠性信息是反映装备可靠性要求、状态、变化和相关要素及相互关系的信息,包括数据、资料和文件等。可靠性信息是进行可靠性设计、试验、管理、提高和保障产品可靠性的重要依据。按照信息来源,可靠性信息可以分为内部信息和外部信息,它们的区别在于是否由所管理的可靠性信息系统产生。可靠性信息管理工作包括对信息的收集、加工处理、贮存、反馈与交换,以及对信息利用情况的跟踪等内容。信息收集是开展可靠性信息工作的起点,没有信息就无法进行信息的加工和应用,收集的程序包括确定信息收集的内容和来源、编制规范的信息收集表格,以及采集、审核和汇总信息。通过对所收集到的、分散的原始信息,按照一定的程序和方法进行审查、筛选、分类、统计计算、分析,对信息进行加工处理。信息经加工处理后,要分类贮存,以便随时查询、使用。
进行可靠性信息管理的主要手段是建立可靠性信息管理系统。可靠性信息管理系统是指以装备(产品)为受控对象,以系统论和控制论为指导,由一定的组织、人员、设备和软件组成的,按照规定的程序和要求,从事可靠性信息工作,以支持和控制可靠性工程活动有效运行的系统。典型的可靠性信息管理系统是故障报告、分析和纠正措施系统(FRACAS)。该系统按规定的程序进行,使可靠性信息管理形成闭环,能够及时报告产品的故障,分析故障原因,制订和实施有效的纠正措施,以防止故障再现,提升产品可靠性水平。FRACAS的主要任务就是对可靠性信息系统的建立和运行的管理,其主要工作内容包括制订必要的规章制度和有关规定、进行信息工作技术的基础建设、进行信息需求的分析、实施信息的闭环管理、信息员的技术培训、考核和评定信息系统的有效性等。
1.2.2.2 可靠性技术工作
可靠性技术工作包括可靠性论证、分析、设计、试验、评价,生产过程的可靠性控制,以及使用和维护阶段的可靠性数据收集、处理和评估等技术工作。在不同寿命周期阶段,装备研制所要开展的可靠性技术工作各有侧重。
论证立项阶段,通过开展立项综合论证和研制总要求论证,初步确定可靠性定性、定量要求,将其作为装备技术指标的一部分;同时给出可靠性工作项目要求,作为可靠性工作大纲的重要组成部分,明确装备研制后续需要开展的各项可靠性工作。
工程研制阶段,一方面需进行系统可靠性指标的分配,并制订初步的可靠性设计准则及优选元器件清单(PPL),指导系统设计;另一方面建立可靠性模型,开展可靠性预计,故障模式、影响分析(FMEA),故障树分析(FTA)等可靠性设计分析工作,发现设计的薄弱环节,改进设计,并判断设计方案是否满足系统可靠性要求,完成装备方案设计。然后进一步开展可靠性建模、分配、预计、FMEA、FTA等可靠性设计分析工作,判断工程设计方案是否满足系统的可靠性指标要求,发现并改进设计的薄弱环节,并贯彻可靠性设计准则,进行可靠性设计准则符合性检查和PPL符合性检查等工作。另外,还应充分开展可靠性研制试验等工作,暴露设计缺陷并及时加以纠正。
列装定型阶段,按照规定的可靠性要求,制订装备的可靠性试验大纲,按要求开展可靠性鉴定等试验工作,发现产品设计、工艺等缺陷,并确认产品的可靠性水平是否符合规定的可靠性要求。
生产阶段,通过开展环境应力筛选和可靠性验收等试验,剔除产品制造过程中引入的各种潜在缺陷,剔除早期故障,并验证产品的可靠性是否符合合同要求。
使用阶段,通过收集可靠性信息,主要开展使用可靠性评估和使用可靠性改进工作,进而摸清现役装备的可靠性水平,找出薄弱环节,改进现役装备的可靠性。全寿命周期可靠性技术工作如图1-3所示。
图1-3 全寿命周期可靠性技术工作
翻开可靠性工程的发展史,不难看出,可靠性的发展历程与产品故障密切相关。可靠性概念由故障而催生,并在与故障的斗争中不断发展和演进。这是一个从对故障机理一无所知到探索出规律准确预测,从对故障的被动处理到主动预防的漫长发展过程。可靠性概念自问世以来,经历了概念形成、建立、全面发展、趋于成熟、深入发展和新技术革命6个阶段,如图1-4所示。
这一阶段大致发生在20世纪40年代。在这一阶段,欧美等国开始注意到产品的故障,萌发并逐步形成可靠性方面的观念,英国和美国是可靠性思想的重要发源地。
图1-4 可靠性的发展历程
可靠性概念的萌芽可追溯到20世纪30年代末40年代初。英国航空委员会协同有关部门在1938年开始对飞机的故障和飞机结构件的故障情况进行调查与统计分析,随后在其飞机适航性研究报告中首次用概率来描述飞机的可靠性和安全问题,这可以看成可靠性观念的最早萌芽。
20世纪40年代初,电台、雷达等各种复杂电子设备的发明和应用,大大提高了战场通信和侦测预警能力,但这些设备故障连连,严重影响其正常效能的发挥。统计数据表明,该时段美国超过一半的机载电子设备运到远东后不能使用,一半左右的电子设备在贮存期间出现故障。经过分析,发现这些电子设备故障的主要原因是电子管的可靠性太差。因此,1943年美国成立了真空管发展部,随后在国防部下设置了电子设备可靠性专门工作组、电子管顾问组、电子元件顾问组和导弹可靠性专门委员会。美国电子工业协会内设置了电子设备质量鉴定过程研究协会。1949年,美国“无线电工程师学会”成立了第一个可靠性与质量控制专业组织—可靠性技术组。
第二次世界大战期间,在V-1火箭的研制过程中,科学家提出了串联系统可靠性的概念—串联系统可靠性等于其各组成部分可靠性之积。
苏联于1946年开始关注和研究可靠性问题。苏联的可靠性技术研究首先在航天领域和武器研制方面展开,并逐步推广应用到一般民用设备。
这一阶段大致发生在20世纪50年代。欧美各国纷纷成立可靠性方面的组织机构,并创立可靠性方面的理论,开始探索实践。我国也开始从国外引进可靠性方面的理论和技术,建立相应的环境试验机构,开展电子产品环境试验方面的探索性实践。
20世纪50年代初,通信装备频繁发生故障,装备系统的效能得不到良好发挥,加上高昂的维护费用,这些一直困扰着美国部队指挥部门和后勤保障部门,也对美国国内装备研制厂商形成了巨大的压力。为此,美国军方和装备研制厂商开始了空前的可靠性研究,美国的学术界也参与进来,纷纷成立与可靠性相关的组织机构,开展相应的研究和实践。
1950年年底,美国成立了“电子设备可靠性专门委员会”。1952年8月,美国国防部成立了一个由军方、工业部门及学术界组成的“电子设备可靠性咨询组”(AGREE),其任务是提出改善军用电子设备可靠性的措施,推动可靠性工程的发展。该组织于1955年制订了一项可靠性发展计划,包括从设计、研制、试验、生产、交货、贮存及使用等各阶段的可靠性研究。AGREE在1957年6月发表了研究报告《军用电子设备可靠性》。报告阐述了可靠性设计、试验等的方法和程序,确定了美国可靠性工程发展的方向,成为美国可靠性工程发展的奠基性文件。自报告发表以来,美国各研究和标准化机构制定了许多有关可靠性与环境试验方面的标准。
美国国防部于1958年成立了“导弹可靠性特设委员会”(ACGMR),专门研究可靠性管理问题,为美国空军系统司令部起草设计、研制及生产可靠性管理大纲。1959年1月,美国空军导弹系统分部出版了AFMM-58-10《弹道导弹及航天系统的可靠性大纲》,后来成为空军采用的主要可靠性管理规范。1959年3月,美国国防部颁布了MIL-R-25717C《电子设备可靠性大纲》,规定了试产及批产电子设备可靠性保障的一般要求。
苏联在20世纪50年代后期已认识到发展现代化设备不仅需要质量控制及质量检验,还需要可靠性工程,并开始可靠性研究及寿命试验工作。1958年,日本科学技术联盟成立了“可靠性研究委员会”,介绍可靠性文献和开展可靠性普及活动,并从美国引进了可靠性技术。但是,苏联、日本等国的可靠性工程是在20世纪60年代以后才得以快速发展的。
20世纪50年代,我国在广州筹建了亚热带环境适应性试验基地,1955年12月成立中国亚热带电信器材研究所,专门从事电子产品环境试验和亚热带防护措施研究。随后又在海南岛、上海、舟山、西北等地区设立了试验站,并开始了人工模拟试验工作。从电子产品对环境的适应性试验入手逐步引入电子产品可靠性概念,并展开初步的探索实践。
20世纪60年代可靠性理论和工程技术得到快速、全面发展,欧美等发达国家从标准化、设计分析和试验评价等方面展开卓有成效的研究与实践,并取得了重要进展。我国也开始建立相应的可靠性机构,开拓性地开展可靠性方面的研究和实践。
20世纪60年代,美国武器研制系统开始全面制订和贯彻落实可靠性大纲要求。美国军事工业,特别是航空及航天工业发展迅速,研制、发展了如“阿波罗”号、“水星”号等各种航天器,F-111、F-15战斗机,M1坦克,“民兵”导弹等。这些系统的研制,为可靠性工程的发展提出现实的需求,起到了很好的促进和推动作用。在这期间,AGREE提出并逐步完善的可靠性设计及试验方法被美国航空航天局(NASA)及美国国防部(DOD)接受,在上述系统中,特别是在电子系统研制中得到广泛应用。
这一时期,美国已充分认识到可靠性管理的重要性,军方已从可靠性工程的角度着手制订统一的可靠性大纲和要求,并有计划地在武器系统的研制开发中强制实施。美国空军于1961年颁布《系统、分系统及设备的可靠性大纲》,1965年美国国防部颁布了MIL-STD-785《系统与设备的可靠性大纲要求》,1980年颁布了其修订版本MIL-STD-785B,明确了武器系统和设备寿命周期中各阶段的可靠性要求和实施要点。
同时,美国“罗姆航空发展中心”(RADC)在1963年组建了“可靠性分析中心”(RAC),以加强武器系统和设备可靠性方面的专业研究,包括可靠性预测、可靠性试验、可靠性分析、数据应用等。
在这一时期,美国军方在可靠性试验、预测和分析方面也得到全方位的发展。在技术标准方面,1963年美国国防部颁布了可靠性试验标准MIL-STD-781《可靠性试验》,并在几年内陆续颁布了其修订版MIL-STD-781A和MIL-STD-781B,规定了可靠性试验的程序和方法。20世纪60年代初期,RADC的可靠性分析中心提出了加速寿命试验和筛选试验方法;在可靠性预测方面,美国国防部基于收集的大量现场和试验的失效数据,发布了可靠性军用手册MIL-HDBK-217《电子设备可靠性预计》,并在几年后发布其第一个修订版MIL-HDBK-217A,该手册提供了大量的电子元器件可靠性数据及分析方法,作为电子设备及系统可靠性预计的基础,在世界各国得到了广泛应用,也被我国所采用。RADC在20世纪60年代初率先开展故障物理研究,研究各种电子元器件的故障机理及故障模式,建立其故障物理模型。1962年召开了“美国第一届电子设备故障物理年会”。NASA在20世纪60年代初率先在航天器中开展了故障模式、影响分析(FMEA),“贝尔电话实验室”于1961年提出了故障树分析(FTA)方法,利用演绎方法分析“民兵”导弹的可靠性和安全性,取得了良好的效果。随后FMEA和FTA技术在其他工业领域也得到广泛应用。到现在,这两种方法仍然是主要的可靠性分析方法。
这一时期,苏联制订了一系列措施来推动可靠性工程技术的发展。随后,开始注重可靠性理论研究和实用的可靠性工程方法探索,在K-S统计检验法及马尔可夫过程等方面取得成就,并在可靠性设计的裕度技术、降额技术、系统综合等方面取得实践成果。
日本引进美国的可靠性工程经验和技术后,开始注意把可靠性、经济性和全面质量控制(TQC)紧密结合,并在20世纪60年代中期建立了覆盖可靠性及质量领域的质量保证体系,把质量保证与可靠性作为TQC的重要内容。
英国在1961年成立了“可靠性与质量全国委员会”,1966年成立了“质量与可靠性协会”,并开展了全国性的可靠性与质量活动。20世纪60年代中期,英国标准局成立了电子设备可靠性委员会,出台了一系列可靠性标准。
法国的可靠性研究工作始于1962年。设立了专门的可靠性试验机构和数据机构,负责可靠性数据收集处理和可靠性试验方法研究。从20世纪60年代中期起,在法国军用电子设备合同中开始提出了可靠性要求,相关的可靠性机构制定了各种可靠性标准和规范,以统一规范军用设备可靠性要求,以及可靠性预计、试验和分析的程序与方法。
我国于20世纪60年代初开始引入可靠性理论和技术,并在电子行业率先开展全国性的宣传和推广应用。在20世纪60年代,我国在雷达、通信机、电子计算机等方面由于故障频频出现,引发了对可靠性问题的重视,并开展了元器件的寿命试验工作,分别对雷达、通信机、电子计算机等整机进行了初步探索,举办了一系列可靠性知识培训班。由第三机械工业部第十六研究所等单位牵头开展研究和实践,其他一些厂所也开始建立可靠性试验小组,着手采取有效的可靠性设计措施。
这一阶段大致从20世纪70年代初到80年代末。可靠性工程经过了20世纪60年代的全面快速发展后,在这一阶段,已日臻成熟,主要表现在成立全国性的可靠性管理机构和数据交换网、可靠性管理和技术手段日益丰富完善、可靠性标准体系基本确立等方面。
首先是全国性的可靠性管理和技术机构的形成。美国国防部于1975年成立了直属美国三军联合后勤司令部的“电子系统可靠性联合技术协调组”;后面该协调组改名为“可靠性、可用性及维修性联合技术协调组”,其管理职能扩展到非电子设备,负责编写美国国防部范围内有关可靠性、维修性的政策及指导性文件;组织并协调国防部军用标准、手册的制定和修改,以及重大的可靠性与维修性研究课题的实施。
为加强政府机构与工业部门之间的数据交换,美国于1970年9月正式成立全国性的数据交换网—政府机构与工业部门数据交换网(GIDEP),并设立常设机构,制定交换网的章程。1974年欧洲电子元器件性能验证试验数据交换网与GIDEP建立电子元器件试验数据交换关系。到1980年,已有220个政府机构及404个工业部门加入了该网。到目前为止,GIDEP仍然是国际公认的权威性的数据交换网,其主要职能是收集、贮存、检索和分配有关材料、元件、部件、设备、系统的可靠性试验和使用数据、试验设备数据、标准试验方法与有关计量数据,以及设备研制、试验及外场使用获得的可靠性数据。
中国于1979年成立了可靠性与质量管理学会;1980年组织建立了中国电子产品质量与可靠性信息交换网;1981年4月成立了中国电子元器件质量认证委员会;1982年国家标准总局召开并成立了全国电工电子可靠性与维修性标准化技术委员会。
同时在可靠性设计技术方面,采用成熟技术、简化设计、降额设计等可靠性设计准则被总结出来,并得到更加严格的要求和强化实施。在可靠性试验方面,综合环境应力试验、环境应力筛选和可靠性增长试验等技术得到很好应用,相应的标准也相继颁布。比如,美国颁布的可靠性试验标准MIL-STD-781C、美国海军颁布的标准NAVMATP-9492,美国国防部颁布的标准MIL-STD-1635;中国建立的“七专”质量控制实验线。在可靠性相关的法令和标准方面,美国逐渐从提高部队作战能力的角度出发来发展可靠性并发布对应的法令和标准。美国国防部于1980年7月颁布了可靠性及维修性指令DODD 5000.40《可靠性及维修性》,规定国防部发展各种武器系统的可靠性和维修性政策,以及武器系统采购中可靠性和维修性活动应达到的目标等。1982年2月美国国防部颁布指令DOD 3235.1《系统可靠性、可用性和维修性试验与评价》,对系统可靠性、可用性和维修性试验与评价提出明确要求。美国空军也于1984年着手制订2000年的可靠性及维修性行动计划,提出通过提高可靠性及维修性来提高部队战斗力、增强生存力、减少部署运输量、节省人力和降低费用五项目标,并制订了一系列的实施办法。我国在军、民领域逐步制定了一系列标准,比如,GB 3187—82《可靠性基本名词术语及定义》、GB/T 1772—79《电子元器件失效率试验方法》、GB 2689.1—81《恒定应力寿命试验和加速寿命试验方法总则》、GJB/Z 299B—98《电子设备可靠性预计手册》、GJB 899A—2009《可靠性鉴定和验收试验》、GJB 450—88《装备研制与生产的可靠性通用大纲》等。同时,机械产品、计算机软件的故障和维修保障问题,在这一时期得到了重视,研究提出了大量的机械零部件的可靠性预计模型、分析方法和验证试验方案及非电子产品数据手册。
20世纪90年代至21世纪初,可靠性进入深入发展阶段。海湾战争后,美军推行采办改革,废止了部分可靠性标准,弱化了可靠性工作。在其后续新装备的研发过程中,可靠性相关问题频出,美国经过深刻反思,颁布相关的采办改革法,重新强调可靠性的重要性,将可靠性作为装备性能的关键要素,探索面向综合化、系统化和智能化装备特点的可靠性技术,借助集成化的软件工具开展可靠性工作,出现了PTC等集成化的软件工具,并在航空、航天、船舶等各领域得到广泛应用。
我国于20世纪90年代后深入开展可靠性技术和管理工作,组织制定和完善了可靠性及维修性的基础标准,逐步形成比较完善的可靠性及维修性标准体系,并成立了中国电子学会电子产品可靠性与质量管理专业委员会(中国电子学会可靠性分会)、全国军事技术装备可靠性标准化技术委员会等专业技术组织;进入21世纪后,国内对于可靠性工作的投入持续升温,大量开展装备定寿延寿试验技术、失效物理技术、通用质量特性综合应用技术、软件可靠性技术、网络系统可靠性技术等研究和实践;可靠性软件也从最初的预计分析工具逐步发展成为涵盖指标论证、方案优选、设计与分析、试验与评价的集成化、自动化、综合化的平台。
21 世纪初至今,可靠性进入新技术革命阶段。随着工业技术、信息技术等的不断发展和进步,新一代装备向集成化、体系化、智能化、模型化演进,可靠性工程技术也快速向前发展,同时也面临着新的要求和挑战。复杂系统科学是近年来人们关注的一个热点,特别是美国桑塔菲研究所的创始人乔治·考温(George Cowan)把这个问题提升到“21世纪的科学”的高度以来,人们对复杂系统科学的研究兴趣更是与日俱增,复杂系统可靠性逐渐成为可靠性工程需要解决的首要问题。2007年,系统工程国际委员会在其举办的国际研讨会上给出基于模型的系统工程(Model Based System Engineering,MBSE)的定义,从此,MBSE引起学术界和工业界的广泛关注,也推动着装备研制模式从传统的基于文本的系统工程向基于模型的系统工程转变,也促使可靠性工程技术向协同化、自动化甚至智能化方向发展。