购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 工业大数据的内涵与范畴

1.2.1 工业大数据的概念

工业大数据在不同语境下有不同的含义。单纯从数据的角度,工业大数据是工业数据的总和 ,包括企业信息化数据、工业物联网数据及外部跨界数据,很多工业物联网数据也符合一般大数据的体量特征(数据量大、多样、快速等)。从企业应用的角度,工业大数据泛指各种数据驱动的思维模式、业务创新和应用实施。从技术的角度,工业大数据很多时候被用来指代工业大数据技术,包括数据的接入、存储、查询、分析及应用等相关技术,被分为平台技术、分析技术和应用技术。大数据平台解决大量、多源、异构、强关联数据的接存管用的问题 ,通常结合基础设施特征、数据特征、计算负荷特征进行经济化和灵活化设计。大数据分析关心如何从大量数据中挖掘出有用的模式,构建具有业务实操性的模型。大数据应用主要针对特定需求,基于大数据平台和分析技术,以合适的形态(例如,私有部署、SaaS服务、工业数据应用)相对完整地支撑业务应用场景。

需要强调的是,数据体量不是工业大数据的关键特征,维度高、强上下文才是工业大数据的关键特征之一。10000台设备,每台设备100个测点,秒级浮点型数据(按8Bytes估算)增量仅为250 TB/年。在很多工业应用中,数据量并不大,但一个分析应用需要关联设备和产品的维度高达几十个,变量的组合数目远大于样本数量。此外,一个数据项背后关联着大量的隐形信息和经验知识,例如,在风电发电机组的风速测量值的背后,需要考虑尾流/湍流/剪切、气象/地形环境、偏航等控制动作对风速测量的影响。因此,在很多工业应用领域,数据量不是技术瓶颈,多源异构数据的物理信息对象建模、多模型融合(机理、经验、统计模型)和专家知识沉淀等才是其关键技术。

1.2.2 应用领域与场景

工业企业应用涉及3个生命周期,即产品生命周期(设计、工艺规划、生产工程、制造、使用和服务、废弃和回收等)、生产过程周期(采购、制造计划、制造过程、质量管理等)和商务活动周期(销售、交付、售后等)。结合实践经验,工业大数据的6个业务应用领域 如图1-1所示,包括新业务模式、数字化研发、智能制造、智能运维、数字化营销和数字化工作空间。其中,智能制造包括以生产制造效率为中心的纵向整合,也包括以业务价值链协同为中心的横向整合。

图1-1 工业大数据的6个业务应用领域

作为一种技术,大数据分析擅长从大量重复性的数据中挖掘新模式。在创新性强(重复性弱、频度低)的新业务模式、数字化研发等环节,大数据分析仅能起到数据汇集、信息提醒的辅助作用,例如,根据大量设备在不同环境、不同工况下实际运行数据和故障信息,针对性地指导产品研发。另外,商务活动及数字化空间的需求与通用的面向企业的数据分析没有区别,本书不做展开讨论。因此,工业大数据分析目前主要集中在智能运维和智能制造等环节。

工业大数据分析的典型主题可归纳为如表1-2所示的3类:① 智能装备/产品,以智能运维环节的需求为主,适当融入智能运维带来的新业务模式(例如,服务性制造、基于产品的金融衍生服务)和研发创新,详细划分为故障预测与健康管理(Prognostics and Health Management,PHM)、资产绩效管理(Asset Performance Management,APM)和运作闭环等3类子主题;② 智慧工厂/车间,集中在图1-1中智能制造的纵向整合,打通不同生产单元与业务环节,结合不同时空颗粒度,从效率、质量和安全的角度,保证制造过程的可视、可溯、可决;③ 产业互联,集中在图1-1中智能制造的纵向整合,通过数据的融合与深度分析,提高协作效率,支撑新的协作模式。

表1-2 工业大数据分析的典型主题

产业链上不同角色的企业关注的分析课题不同,例如,高端装备制造业(汽轮机制造企业)强调“服务型制造”、“智能装备”和“智能诊断”,而装备使用企业(例如,发电厂)则关注整个生产系统(而不是单类设备)的生产效率。再者,对同一类分析课题,由于产品特点和生产模式的不同,不同行业的分析侧重点差异也很大,例如,在生产质量分析方面,化工行业的质量管控粒度较粗,但需要长久稳定的质量,而电子行业可以做到单件或单批次的质量检测,甚至可以做到逐批(Run-to-Run)的工艺参数调整。

1.2.3 在企业信息架构中的位置

工业大数据应用不是技术驱动的,其通常由数字化转型的业务方向决定。数字化转型将打破企业内部、内外部合作中原有的边界。想要真正发挥数据的力量,需要与之对应的生产关系。对工业企业而言,数字化转型主要涉及的内容包括:① 业务模式转型:通过新生产要素、新组织模式、新资源配置方式和新商业模式的应用,加速企业的业务和管理创新能力;② 组织方式和文化意识转变:企业数字化转型是对传统的组织机制、业务模式进行变革,提升个人的数字化素质和能力。一方面需要企业全员建立数据思维,用数据思考问题和解决问题;另一方面要求业务、技术人员进行能力融合,让业务人员懂数字技术,让技术人员理解业务;③ 技术范式的变化:通过大数据、人工智能、云计算、物联网等新技术的应用,实现从以“业务流程”为核心的信息化建设,到以“数据”为核心的数据应用建设。数字化转型覆盖了从业务创新、组织变革、文化重塑到数字化能力等多个层面的建设,数字化转型的成功不可一蹴而就。数字化转型也是一个不断深化的过程,没有完成点。

在数字化转型手段方面,工业企业与互联网企业差别很大。互联网企业的核心业务过程和逻辑本身就是数字化的,严格意义上不存在“数字化转型”,数字化技术用来增加流量、营销精准度和内部运行效率;而工业企业的基础仍然是物理空间的生产过程,其根本目标是产品的质量、成本、产量和业务创新,依赖的手段包括生产设备、工艺知识、管理能力和创新能力,工业大数据是一种新型生产资料和潜在资源,通过数字空间的持续创新,以支撑物理空间中的提升与转型活动。

在决策逻辑方面,相对于人工决策方式,数字化的价值体现在几个方面:① 决策效率,特别是很多低价值的繁杂工作,例如,通过图像识别技术实现液晶面板质量的自动研判;② 研判逻辑的标准化,以提高专家知识的重用,例如,基于专家规则的故障研判;③ 决策逻辑的精化,充分发挥海量数据的“证伪”功能,检验假设,细化专家经验;④ 提高认知水平,通过大量数据挖掘,发现新的规律或当前的认知缺陷。

1.2.4 模型形式与应用范式

工业数据分析常常需要融合多类模型,而不仅仅是统计学习算法。刻画物理世界有3大类模型,如图1-2所示。认知模型提供了一些概念和理念层面的指导,是物理世界在概念和结构上的抽象;唯象模型 从输入—输出关系上逼近物理过程,主要包括统计模型(本节将统计模型、分析模型、数据挖掘和机器学习等提法等同,不做严格区分)和模拟仿真;机理模型是基于公理体系和简化假设等逻辑体系下的模型;经验模型是对过程和决策的经验性总结,包括专家规则和经验公式。当然,不同类别的模型也可以相互转化,例如,开普勒三定律是唯象模型,在广泛被证明前甚至也可以被认为是经验公式,一旦形成相对完善的公理体系,万有引力定律就成为机理模型。

图1-2 刻画物理世界的3大类模型

在行业应用中采用的模型大多是形式化模型,下面重点讨论理论模型和经验模型,并且不刻意区分专家规则与经验公式(以专家规则为代表讨论)。不同类别模型的特点和适用场景如表1-3所示,简单来说,机理模型推演能力强,但不够精准(很多理想化假设);统计模型自适应能力强,但不充分(概率意义上的外推);仿真模型对极端情形检验能力强(对系统和策略设计很有用),但通常不解决日常运行情形;专家规则实用,但不完备(有很多反例,逻辑自洽性差)。因此,在解决问题时,需要根据实际问题的情形选择模型的类型,或者采用多种类型的融合。

表1-3 各类模型的特点与适用场景

1.统计模型的应用范式

一般来说,大数据模型的作用与机理复杂度密切相关。本节从产品相似度和机理复杂度两个维度出发,将分析算法应用总结为6个范式,统计模型在不同情形中的作用如图1-3所示,在不同的组合情形下,统计模型可以发挥的作用不同。

图1-3 统计模型在不同情形中的作用

(1)从工业产品的相似度来看,可分为大量相似产品(例如,风力发电机组)和少量定制化产品(例如,大型水力发电机组)。对于大量相似产品,在数据分析时可以充分利用产品间的交叉信息;而对于少量定制化产品,应深度挖掘其时间维度的信息。

(2)从产品机理的复杂度来看,可分为无须了解内部机理的产品(例如,电子消费品,通常不需要深入元器件内部分析)、简单明确机理产品(例如,风力发电机组)、复杂机理产品(例如,大型锅炉)。当工业大数据分析被应用到复杂机理产品时,应更加注重机理模型和专家经验。

有了大量状态监控后,很多短时预测变得很简单,但这并不能取代机理模型或结构方程的作用。机理模型在仅知道状态变量初始值和输入的情形下,就可能实现很长时间段内的外推。而根据短时拟合出来的统计模型通常做不到这一点。

2.统计模型与机理模型的融合

在不同场景下,机理模型对物理过程描述的精度不同,因而对其他模型的需求也不同,在不同工业场景下,数据与模型的可信度如图1-4所示。微观机理模型通常无法直接用到中观决策,例如,腐蚀电化学模型无法直接用到地下管道的季度预防性维修计划。很多机理模型在环境(如充分光滑、没有阻力)、模型(如集中参数、刚体、模型参数可以相对精准获得)、动力学形态(如不存在湍流)、初始状态(可测且测量成本可接受)等方面都有一定的前提假设或合理简化,在实际过程中需要用数据来检验其合理性,或与分析模型融合,进一步提高模型的适用性。

图1-4 不同工业场景下数据与模型的可信度

分析模型与机理模型融合有如下4种范式。

(1)分析模型为机理模型做模型校准,提供参数的点估计或分布估计,例如,Kalman滤波。

(2)分析模型为机理模型做后期处理或补充。例如,利用统计方法对气象研究与预报模式(Weather Research and Forecasting Model,WRF)的结果进行修正;或者利用统计方法综合多个机理模型,以提高预测的稳定性。机理模型由于未建模因素、参数不精准造成精度低。机理模型的系统辨析需要有效激励输入,但实际的工业系统为了安全和寿命,会限制激励信号的形式。这造成机理模型与物理过程存在一定偏差。分析模型虽然是数据自适应,但在参数维度高时,对训练数据集要求过高,泛化能力差。通常做法是分析模型以拟合机理模型的残差

(3)机理模型的部分结果作为分析模型的特征。例如,在风机结冰预测中,计算出风机的理论功率、理论转速等,并将其作为统计分析模型的重要特征。更进一步,将机理模型作为深度学习模型结构的一部分。如果使用传统的深度学习,即使训练数据满足所有的物理规律,训练好的深度网络仍然可能违反物理规律限定,例如,惯性矩阵非正定,外插无约束。深度拉格朗日网络(Deep Lagrangian Networks,DeLaN) 和哈密尔顿神经网络(Hamiltonian Neural Networks,HNNs)将力学系统作为先验知识成为深度网络模型的一部分,保证了关键物理量的合法性,比传统的前馈神经网络训练速度更快,预测结果更物理,对新的径迹预测也更健壮。

(4)分析模型与机理模型做集成。例如,在空气质量预测中,WRF-CHEM、CMAQ等机理模型可及时捕获空气质量的全局动态演化过程,而统计模型可对空气质量的局部稳态周期模式有较高精度的刻画。模型集成可有效融合两类模型各自的优势。

除严格意义上的融合外,对计算量大的机理模型,分析模型还可以替代机理模型。例如,物理神经网络(Physics-informed Neural Networks,PINN) 用于替代复杂的有限元计算,在训练时,将微分方程或偏微分方程作为深度学习模型损失函数的一部分。物理神经网络已经被广泛用于解决方程求解、参数反演、模型发现、控制与优化等问题。对基于复杂的动力学仿真的优化,强化学习可以用来学习最佳控制策略,强化学习也可以用于求解大规模组合优化问题

3.统计模型与专家规则的融合

在很多设备异常预警等工业数据分析中,缺乏足够的标记样本。此时除无监督学习(包括异常样本的相似度匹配)方式外,可采用专家规则与统计模型融合的方式。

专家规则通常不够完备,专家规则中很多参数和阈值通常不够精准,大数据平台可以为专家规则提供一个迭代式验证平台,数据分析师将当前版本的专家规则形式化,在大量历史数据运行,领域专家对关键结果(例如,预测为故障状态)进行研究,完善专家规则逻辑,通过这样多次迭代运行,通常可以获得一个相对可靠的专家规则。另外,也可以采用主动学习(Active Learning) 策略,统计学习模型可以挑选一些易混淆的样本,让领域专家进行标记。

4.统计模型与仿真模型的融合

仿真模型通常用于做模拟分析(What-if Analysis)、设计验证与预案设计。按照时空尺度,仿真模型可以分为4种类型:① 系统层级的仿真,包括机械、电子、电力、液压、热力学、控制系统等,典型的语言包括Modelica、MATLAB Simulink/SimScape等。注意,这里的“系统层级”是个相对的概念,覆盖了元件级、组件级、部件级、套件级及机组级等不同工业系统级别。② 连续介质理论的计算机辅助工程(Computer Aided Engineering,CAE)模拟,包括有限元法(Finite Element Method,FEM)、计算机流体动力学(Computational Fluid Dynamics,CFD)、电磁仿真及多物理场耦合仿真等。③ 非连续介质理论或介观尺度的模拟方法,涉及微观组织的演变及缺陷、断裂和损伤等各类问题,主要采用第一性原理、分子动力学、蒙特卡洛、相场、近场动力学及元胞自动机等技术。另外,如果把生产经营活动的仿真也纳入进来,可以将其作为第四类,即④ 离散事件仿真,主要仿真活动过程等离散事件下的系统性能。第③类因为涉及微观尺度,通常缺乏大量测量数据的支撑,所以目前工业大数据和第①、②、④类仿真结合比较多。

如果仿真模型结果和实际运行状态相比有一定的可信度,仿真模型将有可能用于指导工业系统的运行控制与运维管理。此时,仿真模型与统计模型有多种结合方式。

(1)仿真作为统计模型的训练验证平台。在现实世界中,数据的场景覆盖度有限,故障样本数量更有限,这对统计学习模型训练通常是不够的。这时可以发挥仿真模型场景覆盖全面的优势,模拟在工业现场出现不了或极少出现的场景(如重大故障、极端工况)。仿真模型为统计模型生成训练数据,统计模型基于这些数据进行训练与验证,可以验证统计模型的技术可行性与性能,也可以用统计仿真训练一个基础模型,根据实际现场数据做迁移学习。反过来,可以通过强化学习,根据统计学习的结果调整仿真参数,让仿真更有针对性,如图1-5所示。

这里需要注意,统计模型的输入数据要素要保持与工业现场相同。仿真模型输出大量状态变量,但现实世界可测量只是其中一部分。统计模型学习的也不是整个系统机理生成式模型,而是解决某个具体问题(例如,故障诊断)的模型。

图1-5 仿真作为统计模型的训练平台

(2)机器学习作为仿真加速器。很多仿真模型计算时间长,不能支撑在线生产决策或控制。可以基于离线仿真结果库,利用统计学习的回归分析算法(如神经网络、随机森林等),训练得到一个回归预测模型。在线时利用回归模型进行预测计算,快速得到一个相对可信的估算值。深度学习在这方面也有不少研究,前面介绍的PINN、DeLaN、HNNs等模型明确将机理或守恒关系构建为深度学习模型的损失函数或模型结构,深度学习模型训练和仿真是两个独立的过程,需要大量额外存储。还有一种方式是深度学习模型训练伴随仿真计算,不需要额外存储中间结果数据,ModelingToolkit.jl、Modelica等系统仿真语言通常要求系统模型为微分代数方程(Differential-Algebraic Equation,DAE)形式,如果神经网络可以表达为DAE形式,那么可以实现训练与仿真的伴随执行,目前主要神经网络模型包括连续时间的回声状态网络(Continuous Time Echo State Networks,CTESN) 、隐性深度学习(Deep Implicit Layers) 等。回声状态网络使用大规模随机稀疏网络(存储池)作为信息处理媒介,将输入信号从低维输入空间映射到高维状态空间,在高维状态空间采用线性回归方法对网络的非随机连接权重进行训练。回声状态网络的优点是训练简单,可以作为递归神经网络的简化方法。而CTESN可以近似为DAE形式,与仿真软件引擎有良好的融合接口。脚注①将CTESN作为代理模型开发JuliaSim软件,训练后CTESN模型可以替代仿真模型做快速推演预测。目前的深度学习用多层显式(explicit)非线性结构 y = f x )来实现强大的拟合能力,但其本质仍是寻找复杂系统的不变点。因此,隐性深度学习尝试用隐性(implicit)联合函数分布 g x y )=0来表达系统的不变关系,以期望用形式简洁、内存需求量小的模型实现复杂系统不变点的表达。主要有深度平衡模型(Deep Equilibrium Model,DEQ)、常微分方程(Ordinary Differential Equation,ODE) 、可微优化(Differentiable Optimization),一旦表达为DAE形式,就很容易结合Modelica等系统仿真引擎训练深度学习模型。

(3)机器学习最优控制策略。很多动力学问题的逆问题(根据当前状态和目标状态,求解最佳控制策略)比较复杂,很多时候不存在唯一解,直接求解难度大。基于仿真实验,利用强化学习等策略学习最佳控制策略。

1.2.5 与其他技术方向的关系

工业大数据是一种数字化技术手段,与数字孪生、工业智能、智能制造及工业互联网等技术共同支持工业数字化转型。本节简单讨论它们之间的关系。

1.数字孪生

数字孪生是构建与物理世界实体要素对应的数字要素,实现虚实映射,并且能够通过数字空间迭代,指导物理空间的决策。与数字孪生相关的一个概念信息物理系统(Cyber Physical System,CPS)也强调建立颗粒度不同的虚实对应的映射关系;但在严格意义上的数字孪生中,数据是单向从物理实体到数字孪生体的,没有以数据“控制物理设备”的行为发生,而在CPS中,控制指令从数字孪生体下行到物理实体设备,与上行数据形成闭环。

数字孪生与CPS的理念是工业大数据建模的指导思想,尝试构建反映物理实体的全息模型。但同时要意识到,任何模型都是物理世界的简化,数字孪生也是针对特定问题的模型。最后,因为采集技术和采集成本等因素,很多关键工业参数在现实中并没有采集,这样反过来也能从可实现性的角度给出数字孪生模型的适用范围。

2.工业智能

工业智能是人工智能技术与工业融合发展形成的,贯穿设计、生产、管理及服务等工业领域的各个环节,实现模仿或超越人类感知、分析、决策等能力的技术、方法、产品及应用系统。

工业智能从应用类型的角度来定义,而工业大数据从数据角度来定义,二者有很大程度的重叠,但不是包含关系。工业智能中的人工智能技术(特别是数据驱动或专家系统方法)属于工业大数据分析的范畴,但工业智能中也包括机器人等自动化技术。

3.智能制造

智能制造将新一代信息技术,贯穿设计、生产、管理和服务等制造活动的各个环节,具有信息深度自感知、智慧优化自决策、精准控制自执行等功能的先进制造过程、系统与模式的总称。工业大数据是智能制造的重要支撑技术,智能制造也是工业大数据的重要应用方向之一。

4.工业互联网

工业互联网构建了基于云的新价值链网,以典型工业App的形式支撑企业内部和外部生态的协同,创建了能力供需生态。工业互联网概念强调的是供需连接方式和协作范围。工业大数据是工业互联网的基础技术,工业互联网丰富了工业大数据的数据内容。 QqevoF4O8CS3hIVrOGBaspLhdK35nK8j92AFb9u8sOPV+0XYbZX9ZnDsJIvQkht/

点击中间区域
呼出菜单
上一章
目录
下一章
×