2023年5月,我国南方某省,某大型电子制造企业,其关键的制造执行系统(MES)突然出现宕机故障,与之相关的流程规格管理、配方管理、制程控制、机台流程控制、自动派货控制、传送管理、工艺控制等十几个核心系统均无法正常工作。在故障发生后,运维人员在相对较短时间内得到了问题反馈,对直接影响的生产预约系统进行了排查,排除该系统本身问题后进一步确定是新部署的网络终端IP配置冲突问题,MES相关的自动派货进程缓慢,导致生产订单产生积压同时加工效率变低。在途的原材料长时间没有到达指定机台,造成原材料氧化变质直接损失为500万元,同时由于生产积压导致在制品的良率变低以及生产效率下降导致无法按期交货,造成总的间接违约损失约700万元。
最后运维人员通过修改配置解决了该故障,但是前后持续时间为5小时,总经济损失为1200万元。
众所周知,MES是制造业的核心IT系统之一,负责管理从生产原材料到成品制造完成的全过程,用于监控、控制和优化制造,包括建立和跟踪制造工单,根据工艺路线决定制造程序,采集记录制造过程中的原料使用和工时,分析生产效率。同时在离散型制造企业中,MES往往又扮演着“中枢”的角色,其与上游的企业资源计划(ERP)和下游的生产控制系统(PCS)关系非常紧密,像上述提到的某电子制造企业,其MES每天要处理输入和输出大约1000万条以上的指令且不能出错,可以看到其生产业务对MES的依赖是极高的。
在该事故发生后的第二天,CIO组织研发与运维相关人员进行了为期一整天的故障复盘,在这个开放而又激烈的会议中,不同部门人员的出发点和建议有很大不同。
网络运维组的王经理提到需要考虑做整个生产园区的IP规划与管理,需要划分为多个子网,以实现不同设备和系统的隔离和管理。例如,可以将生产设备、监控系统、办公设备等划分到不同的子网中。要实现活跃IP扫描,使用IP地址管理工具来跟踪和管理网络中的IP地址,记录每个设备的IP地址、分配状态和其他重要信息,以便网络管理员进行有效地管理和故障排除。
应用运维的负责人李经理提到要加强统一监控的能力,花了很长时间才从应用缓慢排查到了网络配置问题,这次故障明显反映出故障诊断支持工具完备度不足,故障链路中的各类数据分散于不同团队和工具,数据富集和共享消耗了大量时间,建议建立统一的运维监控平台。
综合管理部的邵总提到,本次事故明显反映出团队的应急管理能力极其不足,表现在风险级应急机制覆盖不足,遗漏对设备的风险控制,没有很好地执行应急预案,甚至说“我们有应急预案吗?”同时团队也缺少全栈运维工程师,各运维团队仅熟悉各自领域的业务和技能,不能通盘分析和诊断故障。
流程管理部的董经理激动地说,这是管理和机制的问题,对于变更管理的缺失是本次事故发生的根本原因,团队在变更前没有充分评估技术风险、未制定全面的测试方案,甚至还没有建立覆盖全面的变更管理流程!有变更必然会有风险,所以必须加强对变更过程的控制,以防变更过程中的疏忽、资源短缺、准备不足等原因造成生产事故。
以上种种建议,各位读者是否觉得都是解决问题的手段呢?是的,笔者也是这么认为,各位当事人提出的建议都是正确的,但可能也都是片面的,如何能够举一反三?如何能够尽量全面而系统性地审视与解决业务连续性问题?CIO郭总的发言引起了大家的进一步思考,当IT出现故障后,团队进行复盘分析,不能光看故障表面的原因,仅仅解决表现出来的局部问题,而是要系统性思考,能够举一反三,能够从整体性,全局性的角度思考,从体系化的高度来构建解决IT故障预防与处置的应急的、短期和长期的解决方案,评估每种方案的时效性、投入和产出才能更加客观地对运维整体性有规划、有方案、有落地、有效果、有评价。