工业大数据工程：系统、方法与实践最新章节_田春华著

1.4　工业大数据工程的内容

1.4.1　工业大数据建设面临的挑战

对于工业企业，工业大数据建设中面临的典型挑战与原因分析如表1-7所示。

表1-7　工业企业面临的典型挑战与原因分析

续表

工业数字化转型的必要性被广泛接受，但落到具体企业，很多企业缺乏明确的业务目标和规划。另外，由于自动化和信息化的惯性思维，很多企业仍将大数据看作一个效率提升的手段，要求明确的短期投资收益比，而没有意识到大数据是提升企业内部创新的一种手段，是持续提升认知的一种有效手段。

另外，很多大数据建设工程成为橱窗工程，没有变成企业的持续生产力。目前，大数据建设大多采用第三方专业化服务的模式，包括数字化转型规划、大数据平台建设、大数据分析和大数据应用开发。在前期，第三方专业化服务因为专业性，建设进度通常较快。但在更重要的运行运维期，缺乏持续的业务创新应用。原因有3方面：① 缺乏组织内生能力，无法持续运行；② 缺乏对增量数据持续治理的意识和机制，大数据平台成为历史数据收集站；③ 不少大数据平台是一个通用大数据技术平台，没有照顾到领域专家的技能体系，也没有与领域软件的交互接口，没有成为工业企业可以消费的工业大数据平台。

在涉及工业具体分析场景、业务应用时，推进速度和效果通常低于预期。原因有多方面：① 过度强调整体规划与一次性治理，仍采用经典数据仓库建设的思路，花费大量时间制定企业数据标准、规范，然后才建设业务应用；② 很多课题定义过于理想，没有考虑真实的数据基础和数据质量现状，也没有规划业务应用场景；③ 大数据平台缺乏必要的面向领域专家的工具，造成大数据分析与应用开发的技能门槛太高，多方协调成本高、效率低。

对第三方工业大数据技术专业服务企业，其面临的挑战表现为需求差异大、价值落地慢，如图1-9所示为工业大数据第三方实施中的现象、原因与解决方法。

差异大主要体现在两个方面：一是理想与现实的差异大，感觉中的数据、技术、管理基础与现实的差别大，数据分析结果与业务期望的差别大。很多企业信息化与自动化已实施多年，每个领域单独看起来基础不错，但大数据分析需要全流程、全要素、全周期关联，数据基础的薄弱之处就凸显出来了。每个数据集的完整度为90%，5个数据集整合起来完整度不到60%。二是不同行业间的分析需求差异很大、基础差异很大、落地措施差异很大，造成分析模型和应用的重用度低，没有充分发挥专业化分工的规模效益。

图1-9　工业大数据第三方实施中的现象、原因与解决方法

第二种现象是落地慢，工业数据分析和落地通常需要跨工艺、自动化、信息化多个组织部门，经常还跨多个技术学科，在这些跨领域协作中信息损失量很大，效率不高；另外，工业大数据分析结果需要与现有业务管理体系、组织流程或控制过程等融合才能落地，但这些融合方式的推进需要的精力可能远超预期。

对于政府和公共组织，在扶持和推进工业大数据应用时，也面临不少挑战：① 企业基础和需求差异大。有些企业两化（信息化与工业化）基础好，有些企业还处于两化建设阶段；不同行业的工业大数据差异大，这对扶持政策的精准性和覆盖度提出了很大的挑战；② 产业的持续发展与人才结构的匹配问题。工业大数据对人才的需求和工业企业、第三方技术服务企业间的匹配问题；③ 产业效益的评估问题。工业大数据本质上是增强企业的内部创新能力和敏捷性，与研发、生产技术革新融合在一起，相对于从无到有的新产业、新技术建设等，很难清晰评价产业价值。

综上所述，工业企业、工业大数据技术专业化服务企业和政府第三方面临的挑战背后的共同需求包括：① 一套指导工业大数据的方法，包括数字化转型方法、大数据工程方法、大数据分析方法和应用部署方法；② 一个面向工业领域专家的工业大数据平台，即匹配工业场景、技能体系和工具链条的工业大数据系统，降低使用和运维技术门槛；③ 有效的组织模式，包括企业间的合作机制、企业内数字化创新组织等。对于数字化转型、组织模式设计这两个话题有很多专文论述，本书内容集中在工业大数据技术，将其归纳为敏捷工业大数据工程方法和面向领域的工业大数据系统技术，将这两个方面统称为工业大数据工程，期望通过一系列工程方法与系统技术，提高工业大数据的技术建设和价值创造速度。

1.4.2　敏捷工业大数据工程方法

工业大数据包括数据资源、数据分析模型、数据应用3个要素，为提高工业跨领域创新的迭代速度，结合传统的咨询方法和敏捷的体系，我们提出了一套敏捷工业大数据工程方法，如图1-10所示，主要有3个构成要素：① 数据资源化，基于工业物理对象的数据建模与集成方法，将海量异构的数据关联成有领域语义的信息资源；② 知识结构化，基于跨行业数据挖掘标准流程（Cross Industry Standard Process for Data Mining，CRISP-DM）的敏捷工业数据分析方法，将大量数据蕴含的规律和领域专家的非结构化知识变成形式化模型，并提供低代码的工业数据应用开发方法；③ 研用一体化，云边协同的机器学习操作（Machine Learning Operations，MLOps）方法，将模型研发与部署运行运维一体化，支撑工业企业的自主研发能力建设。

图1-10　敏捷工业大数据工程方法的3个构成要素

1.基于工业物理对象的数据建模与集成方法：领域驱动，按需治理

数据资源化是指数据提纯和二次加工的过程，即提高数据质量和价值密度的过程。为支持敏捷的数据创新，数据资源的结构化建设很重要。从逻辑上应该对原始采集的数据、转化的数据、集合的数据等数据分层次结构化，与经典的企业数据仓库建设类似。但在执行上，应遵循最小可行产品（Minimum Viable Product，MVP）的思路，采用单点突破的建设方式，如图1-11所示。逐层建设不但周期长，也不现实。由于认知的限制，一次建设不可能完美，需要定期规整化。

图1-11　数据资源的单点突破建设方式

工业大数据的强机理与强关联性决定了只有建立起描述业务上下文的工业物理对象模型，才能有效支撑后续的分析与应用，例如，设备全生命周期档案（设备智能运维场景）、物料流转与工艺状态档案（质量分析场景）、需求动力学关系图（需求预测场景）等。这需要在多源异构的原始数据上，二次或三次加工数据。以设备全生命周期档案为例，该档案记录着设备的过往及不同维度的信息，包括设备的基本信息、设备结构（Bill of Material，BOM）、维修履历、故障记录、异常预警记录和工况等，需要从企业资源计划（Enterprise Resource Planning，ERP）、企业资产管理（Enterprise Asset Management，EAM）、SCADA等原始数据提取加工。

领域建模也是梳理支撑数据的过程。根据业务问题，从逻辑角度思考哪些数据对业务有价值，结合其逻辑结构（例如，时序大数据、非结构化数据、关系型数据）建立领域模型，然后与现有的数据源映射，明确其存储形式和访问方式，从而指导数据处理方式。但原始数据通常有很多历史遗漏质量问题，多个数据源间存在失配或不一致的情形，同一类数据的数据结构存在着演化，这需要大量细致的数据治理工作，才能将其变成业务可用的数据。

数据治理应该有效益意识，按需治理，否则可能出现投入产出不匹配的情形。很多数据质量问题治理策略与应用场景有关，例如，原始监测时序数据中的离群值，在设备健康分析前需要滤除，但在传感器失效分析中则是高价值数据。另外，到一定程度后，数据价值提升的收益和代价是不对等的，95%的精确度和99%的精确度对分析应用来说也许一样好，但二者付出的代价差别很大。

2.基于CRISP-DM的敏捷工业数据分析方法：大数据与小数据无缝融合的研发迭代

传统的统计学习建模采用CRISP-DM的过程方法，将数据分析过程总结为业务理解、数据理解、数据准备、模型建立、模型评估、模型部署6个阶段，因为业务定义不完整、数据质量不确定等原因，不同阶段间存在着大量局部迭代，CRISP-DM本身也是一种敏捷迭代的过程方法。

在工业大数据应用中，除统计学习外，数据分析算法还包含计算公式、专家规则、运筹优化等类型。另外，机理与经验等先验知识是工业大数据分析的一部分，跨领域协作更为重要，因此，需要在CRISP-DM方法基础上，针对工业分析和典型应用进行细化，形成一套工业分析的协同研发方法，用结构化、量化的思维方式进行分析、拆解和解决问题，同时考虑小数据集上模型研发与大数据集上模型验证的无缝衔接。

3.云边协同的MLOps方法：研用一体化，支撑快速迭代

在传统数据分析模式下，模型研发与运行、运维是两个独立阶段，甚至很多研发模型需要重新开发，业务价值落地周期长。MLOps或DataOps方法尝试消除这样的串行工作，形成如图1-12所示的模型研发的快速迭代式推进过程。

图1-12　模型研发的快速迭代式推进过程

1.4.3　面向领域的工业大数据系统技术

为应对多样化的工业大数据需求，工业大数据系统宜采用层次化的建设方法，如图1-13所示。在充分融合通用大数据技术社区的基础上，开发针对工业特色的算法库、计算框架和物联网数据库技术，在此之上，针对典型工业大数据应用领域（例如，设备健康与诊断、生产质量管理、生产效率优化等），形成领域算子库、领域模型和分析建模环境；在此之上，针对行业对内容进行进一步具象化；这样企业的大数据应用，可以基于底层的共性内容组合出来，形成基于资产的敏捷模型研发。

图1-13　工业大数据系统的层次化建设方法

1.多源异构数据汇集与处理技术与系统

通过面向工业数据存储优化的工业大数据技术，实现多源异构数据的一体化、低成本、分布式存储；通过面向工业大数据分析负载优化的存储读写技术，实现分析工具对数据的高效存取；通过一体化元数据技术，实现对时序数据、关系数据和对象数据的工业语义化组织与高效检索。

针对跨领域协作效率低的共性挑战，将海量异构的数据变成有领域语义的信息资源，将丰富非结构化的知识变成可扩展的形式化模型，将模型研发与部署运行运维一体化，支撑工业企业的自主研发能力建设。

2.低门槛工业大数据分析建模环境

为适配领域专家的技能，建模方式最好是组装式建模，基于大量内置的算子，根据业务问题进行配置和建模；或者基于丰富的行业分析案例或分析模型，快速适配当前问题。在模型测试方面，采用“大数据与小数据”无缝切换的方式，开发和调试可以在本地的小数据集上进行，运行在大数据集上出现异常后，能将异常上下文以数据文件的形式提供到本地调试。基于这样的非侵入式并行化技术，大量的现有分析模型资产可通过低代码方式迁移到大数据环境。同时，为保证技术资源的可持续性，要融入Python、R、MATLAB等技术社区，一方面可以借用社区的资源和力量，另一方面，也可以保证社区资产的利用。

大数据平台也需要支持已有分析模型的快速成熟。很多工业企业积累了不少单机分析模型（如MATLAB、Python、R），但缺乏在大数据集上的验证工作。经典的大数据并行化分析系统要求重新编写分析程序，但其算法库（如MLlib、FlinkML）对工业分析方法（如信号处理、系统辨识等）的支持有限。在很多工业分析场景中，并行化数据通常是按照有明确业务语义的字段来分组的（如风功率曲线计算按照风机、月份进行并行化）。因此，工业大数据平台应该支持非侵入式的MATLAB、Python、R并行化，用户只需指定可并行化分组的数据字段，并对单机分析程序做简单适配，就可以直接将分析模型甩到大数据平台上做全量并行化，通过大数据的迭代去伪存真，探究海量数据背后的一般性规律，实现企业已有分析资产和实践经验的快速变现。这就需要分析引擎能够将分析模型与计算模式（批计算、流计算）、运行环境（集群、单机）、数据源独立开来，这样研发的模型可以实现多现场部署。

3.数据应用的低代码开发工具

工业数据应用与信息化中的业务应用有很大不同。首先，数据应用支持关键决策，业务流程很短，主要集中在决策结果可视化方面；其次，数据应用背后依赖很重的数据上下文，需要明确数据模型抽象；另外，依赖包多，运行环境差异大；最后，数据应用的运行环境差异大，可运行在中心端的分布式环境，也可运行在边侧的单机环境。这些差异也决定了数据应用的低代码开发与业务应用型低代码开发不同。

4.云边协同的分析模型与数据应用运行环境

因为数据安全、数据传输负载等因素，很多工业现场数据不能回传到中心端。这时通常要求分析模型和应用能够运行在边侧。这样就要求大数据计算引擎可以适应异构环境，包括：① 消除模型研发和生产运维的隔离，最好采用同一套代码，避免重复开发；② 支持灵活的部署方法，包括在线的一键部署与离线的基于文件的部署；③ 屏蔽集群、单机等运行环境的差异性；④ 屏蔽流计算、批计算执行方式的差异。

1.4 工业大数据工程的内容

1.4.1 工业大数据建设面临的挑战

1.4.2 敏捷工业大数据工程方法

1.4.3 面向领域的工业大数据系统技术

1.4　工业大数据工程的内容

1.4.1　工业大数据建设面临的挑战

1.4.2　敏捷工业大数据工程方法

1.4.3　面向领域的工业大数据系统技术