购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1
工业大数据分析的范畴与特点

从行业应用的视角,大数据技术内容包括数据思维、大数据平台、大数据分析技术、大数据应用四个层面。数据思维与逻辑思维、实证思维、构造思维(计算思维)这其他三类思维模式相比,关注的是如何从数据分布、数据拟合的角度去刻画物理世界和解决问题,大数据平台解决的大量、多源、异构、强关联数据的“接存管用”的问题,通常结合基础设施特征、数据特征、计算负荷特征进行经济化和灵活化设计。大数据分析关心如何从大量数据中挖掘出有用的模式,构建具有业务实操性的模型。大数据应用主要针对特定需求,基于大数据平台和分析技术,以合适的形态(例如私有部署、SaaS服务、工业APP),相对完整支撑业务应用场景。在讨论任何一个大数据技术问题时,这四个层面很难完全割裂开。本节侧重讨论工业大数据分析的范畴,与其他三个层面的关系也做简略探讨。

1.1.1 数据分析的范畴

大部分工业企业都会涉及产品生命周期(设计、工艺规划、生产工程、制造、使用和服务、废弃和回收等)、生产过程周期(采购、制造计划、制造过程、质量管理等)、商务活动周期(销售、交付、售后等)等3个生命周期,从大面来说,大数据分析有可能应用到所有的环节。结合实践经验,按7大业务领域总结了大数据应用领域,如图1-1所示。

但作为一个技术,大数据分析还是擅长从大量存在重复性的数据中去挖掘新模式。在创新性强(重复性弱、频度低)的数字商业模式、数字化研发等环节,大数据分析还仅仅起到数据汇集、信息提醒的辅助作用。商务活动和数字化空间的需求,和通用的面向企业的数据分析没有区别。因此,工业大数据分析目前还主要集中在智能运维和智能制造等环节。

图1-1 工业大数据的应用环节

1.1.2 典型分析主题

基于上一小节的智能运维和智能制造等应用环节的讨论,我们拟将工业大数据分析的典型场景归纳为如表1-1所示的3类:①智能装备/产品,以智能运维环节的需求为主,适当融入智能运维带来的新业务模式(例如,服务性制造、基于产品的金融衍生服务)和研发创新,详细划分为PHM(Prognostics and Health Management,设备故障诊断与健康管理)、APM(Asset Performance Management,装备效能优化)和产品运作闭环等3类子主题;②智慧工厂/车间,集中在图1-1中智能制造的纵向整合,打通不同生产单元与业务环节,结合不同时空颗粒度,从效率、质量和安全的角度,保证制造过程的可视、可溯、可决;③产业互联,集中在通过图1-1中智能制造的纵向整合,通过数据的融合与深度分析,提高协作效率,支撑新的协作模式。

工业大数据的3大典型分析领域的行业用例如图1-2所示。首先,产业链上不同角色企业关注的分析课题不同,例如,高端装备制造业(例如汽轮机制造企业)强调“服务型制造”“智能装备”“智能诊断”,而装备使用企业(例如发电厂)则关注整个生产系统(而不是单类设备)的生产效率。再者,对同一类分析课题,由于产品特点和生产模式的不同,不同行业的分析侧重点差异也挺大,例如,在生产质量分析上,化工行业的质量管控粒度比较粗,但需要长久的稳定的质量,而电子行业可以做到单件或单个批次的质量检测,甚至可以做到Run-to-Run的工艺参数调整。

表1-1 工业大数据分析的典型主题

图1-2 不同行业的典型分析主题

1.1.3 工业数据分析的特点

相对于服务业(如银行、电信等)和互联网的大数据,工业大数据具有很多特点 [1,2] ,例如,工业大数据具有多样、多模态、高通量和强关联等特性,具有很强的上下文信息(Context),这些特性对工业大数据平台提出了新的技术要求,不仅需要高效的数据存储优化,还需要能够通过元数据、索引、查询推理等进行高效便捷的数据读取,实现多源异构数据的一体化管理。

对于工业分析来说,工业数据的特点主要有维度不完备、样本量不足(且严重有偏)、数据蕴含大量上下文信息等特点,这些特点也造成了“拥有的数据非常多,但可用的数据很少”的窘境。

1)维度不完备,数据分析需要集成多个维度的信息,任何一个维度的缺失都会造成分析数据集的缺失。很多分析常常需要一个完整的工业过程,过程序列中的局部中断,可能导致当前数据不能完整勾画出真实的物理过程。另外,有些维度间缺乏精确关联,例如在洗衣液罐装生产线中,考虑到成本和生产节拍,不可能按袋追踪,称重的数据和罐装工艺过程数据做不到一一对应,在对应时只能采用概率模型。

2)样本量不足,且数据样本通常严重有偏(biased)。多数工业系统被设计为具有高可靠性且严格受控的系统,绝大多数时间都在稳定运行,异常工况相对稀缺(对于数据分析来说具有“高价值”)。很多数据在历史上没有被标记,对历史数据的大规模重新标记通常也不可行(工作量大,对标记人员的要求高)。还有一些工业场景要求捕获故障/异常瞬间的高频细微状况,这样才能还原和分析故障发生的原因。最后,设备、传感器、工艺和环境也是在不断变化的,历史数据的有效性也会随着时间而流逝。这些都造成了工业数据分析时的样本量不足。

3)数据蕴含大量上下文信息。工业是一个强机理、高知识密度的技术领域,很多监测数据仅是精心设计下系统运行的部分表征。很多数据间的关系都可以用机理去解释(不需要挖掘),领域知识也提供了很多有用的特征变量(如齿轮箱振动的倒谱),这些隐形信息都大大缩小了数据分析的参数搜索空间。但不幸的是,并不是所有的专家经验或领域知识都是正确的,数据分析仍然需要保持“谨慎的相信”,但不是迷信。

1.1.4 数据分析的典型手段

上述工业数据分析的特点也决定了技术手段的不同,工业数据分析常常需要融合多类模型,而不仅仅是统计学习算法。

刻画物理世界有3大类模型,如图1-3所示。认知模型提供了一些概念和理念层面的指导,是物理世界在概念和结构的抽象;理论模型中,唯象模型是从输入—输出关系上去逼近物理过程 [3] ,主要包括统计模型(包括统计描述与统计学习,本节将统计模型、分析模型、数据挖掘、机器学习等提法等同,不做严格区分)和模拟仿真,机理模型是基于公理体系和简化假设等逻辑体系下的模型;经验模型是在实践中,对过程和决策的经验性总结,包括专家规则和经验公式。当然,不同类别模型也是相互转化的,例如,通常认为开普勒三定律是唯象模型(在广泛被证明前也可以认为是经验公式),但一旦形成相对完善的公理体系,万有引力定律就成了机理模型。

图1-3 刻画物理世界的3大类模型

在行业应用中采用的模型大多是形式化(或部分形式化)模型,所以下面重点讨论理论模型和经验模型,并且不刻意区分专家规则与经验公式(以专家规则为代表讨论)。不同类别模型的特点和适用场景见表1-2,简单来说,机理模型推演能力强,但不够精准(很多理想化假设),统计模型自适应能力强,但不充分(概率意义上的外推),仿真模型对极端情形检验能力强(对系统和策略设计很有用),但通常不解决日常运行情形,专家规则实用,但不完备(有很多反例,逻辑自洽性差)。因此,在解决问题时,需要根据实际问题的情形选择模型的类型,或者采用多种类型的融合。下面重点讨论统计模型及与其他模型的融合。

表1-2 各类模型的特点与适用场景

1.统计模型的应用范式

一般来说,大数据模型的作用与机理复杂度密切相关。本节从产品相似度和机理复杂度两个维度出发,将分析算法应用总结为6个范式,如图1-4所示,在不同的组合情形下,统计模型可以发挥的作用不同。

图1-4 统计模型在不同情形的作用

1)从工业产品的相似度来看,可分为大量相似产品(如风力发电机)和少量定制化产品(如就地建设的化工反应塔)。对于大量相似产品,在数据分析时可以充分利用产品间的交叉信息;而对于少量定制化产品,应深度挖掘其时间维度的信息。

2)从产品机理的复杂度来看,可分为无须了解内部机理的产品(如电子消费品,通常不需要深入元器件内部分析)、简单明确机理产品(如风力发电机)、复杂机理产品(如鼓风机、化工厂)。当工业大数据分析被应用到复杂机理产品时,应更加注重机理模型和专家经验的融合。

2.统计模型与机理模型的融合

在不同场景下,机理模型对物理过程描述的精度不同,因而对其他模型(包括分析模型)的需求也不同,不同工业场景下数据与模型的特性如图1-5所示。微观机理模型通常无法直接用到中观决策,如腐蚀电化学模型无法直接用到地下管道的季度预防性维修计划。很多机理模型在环境(如充分光滑、没有阻力)、模型(如集总参数、刚体、模型参数可以相对精准获得)、动力学形态(如不存在湍流)、初始状态(可测且测量成本可接受)等方面都有一定的前提假设或合理简化,在实际过程中就需要用数据来检验其合理性,或与分析模型融合,进一步提高模型的适用性。

图1-5 不同工业场景下机理模型的可信度

分析模型与机理模型融合的范式有4种,如图1-6所示。

1)分析模型为机理模型做模型校准(Model Calibration),提供参数的点估计或分布估计,如Kalman滤波。

2)分析模型为机理模型做后处理(Post-processing)。例如,利用统计方法对WRF(Weather Research and Forecasting Model)等天气预报模型的结果进行修正;或者利用统计方法综合多个机理模型,提高预测的稳定性。

3)机理模型的部分结果作为分析模型的特征(feature)。例如,在风机结冰预测中,计算出风机的理论功率、理论转速等并将其作为统计分析模型的重要特征。

4)分析模型与机理模型做融合(ensemble)。例如,在空气质量预测中,WRF-CHEM、CMAQ(Community Multiscale Air Quality)等机理模型可及时捕获空气质量的全局动态演化过程,而统计模型可对空气质量的局部稳态周期模式有较高精度的刻画。二者的融合可以发挥两类模型各自的优势。

图1-6 分析模型与机理模型融合的4种范式

3.统计模型与专家规则的融合

在设备异常预警等很多工业数据分析中,大量历史数据没有标记,领域专家通常可以提供少量的异常样本。这时候除了无监督学习(包括异常样本的相似度匹配)方式外,就是采用专家规则与统计模型融合的方式。

专家规则通常不够完备,专家规则中很多参数和阈值通常不够精准,大数据平台可以为专家规则提供一个迭代式验证平台,数据分析师将当前版本的专家规则形式化,用大量历史数据运行,领域专家对关键结果(例如预测为故障状态)进行研究,完善专家规则逻辑,通过这样多次迭代运行,通常可以获得一个相对可靠的专家规则。另外,也可以采用主动学习(Active Learning) [6] 策略,统计学习模型可以挑一些易混淆的样本,让领域专家去标记。这些将在第10章讨论,这里不再赘述。 Gt4Hm1HqG/krNQh0Gd9iaRRkl0b6Nr0CC237F8JpytJWt58ylBa22ykwQGyX6aze

点击中间区域
呼出菜单
上一章
目录
下一章
×