购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.3 工业大数据的特点与关键技术

1.3.1 特点

文献[6-8]和文献[10-13]对工业大数据的特点进行了详细的分析。这里简要总结为4点。

1. 工业大数据具有多样、多模态、高通量和强关联等特性

根据数据来源,可以将工业大数据分为3类 [14] :第1类是与企业运营管理相关的业务数据,这类数据来自企业信息化范畴;第2类是设计与制造过程数据,主要指在工业生产过程中产生的装备、物料及产品加工的工况状态参数、环境参数等数据;第3类是企业外部数据,包括产品售出后的使用情况、运营情况等数据,还包括大量用户数据、供应商数据、互联网数据等。工业大数据的这些特性对多源异构数据存储技术提出了很高的要求,不仅需要高效的数据存储优化,还需要通过元数据、索引、查询推理等进行高效且便捷的数据读取,实现多源异构数据的一体化管理。

2. 工业数据资源并不丰富

在宏观层面,工业领域的数据类型和数据量非常丰富。但对于微观的大数据应用和分析来说,有价值的数据往往十分稀缺。

(1)数据样本通常严重有偏(Biased):多数工业系统被设计为具有高可靠性且严格受控的系统,绝大多数时间都在稳定运行,异常工况相对稀缺(对于数据分析来说具有“高价值”),有标记的异常样本更是难得。还有一些工业场景要求捕获故障或异常瞬间的高频细微状况,才能还原和分析故障发生原因,这对数据监控和后台数据存储提出了很高的要求。

(2)维度不完整和序列间断(Censored):全维数据集的有效关联往往很难实现,在时间或空间序列上也常常存在数据缺失,导致当前获取的数据不能完整勾画真实的物理过程。因此,需要谨慎考量CPS的应用范围。另外,上述问题也导致“数到用时方恨少”。工业互联网产业联盟和中国信息通信研究院的《2018工业企业数据资产管理现状调查报告》显示,我国工业企业的数据资产存量普遍不大,66%的企业的数据存量都在20TB以下,还不到一个省级电信运营商日增数据量的1/10。针对这种情况,工业大数据应该进行“量体裁衣”式建设,而不是被动响应。要从业务的角度挖掘需求,从技术的角度思考如何获取更多数据资源(如新传感技术、软测量、内部信息整合、数据联盟等),从数据的角度思考如何利用新模式或新技术提高业务能力。

3. 工业数据有丰富的上下文信息(Context)

工业是一个强机理、高知识密度的技术领域,很多监测数据仅是精心设计下系统运行的部分表征。工业领域通常有机理模型和专家经验的深厚积累,可以为数据分析提供极具参考价值的特征量(如齿轮箱振动的倒谱等)和参数搜索空间。工业大数据分析通常会隐性或显性地利用大量行业知识(包括而不限于问题定义、数据筛选、特征加工、模型调优等环节),将统计学习(或机器学习)算法与机理模型算法融合,以创造更高的价值。

4. 工业大数据的人才体系是二分的

工业大数据的价值变现通常需要将统计学习模型和机理模型融合,而这两个模型属于不同技术门类,且工业企业通常以工程技术人员为主,这种技能的割裂严重制约了工业大数据生态的发展。

除以上共性挑战之外,单个制造业企业在推进工业大数据的发展时,还会面临管理模式转变、人才短缺、短期成效与长效机制矛盾等方面的挑战,这就需要在大数据规划与实施过程中有一个系统而有效的方法论来进行指导。

1.3.2 关键技术

1. 工业大数据平台

为有效支撑海量多源异构工业数据的存储与查询,有机融入现有知识、经验与分析资产,并消除技能割裂对工业大数据应用和发展的制约,需要构建一套能够支撑工业大数据分析的工业大数据平台及技术,工业大数据平台架构如图1-3所示。

图1-3 工业大数据平台架构

1)多源异构数据存储与查询

通过面向工业数据存储优化的工业大数据湖技术,实现多源异构数据的一体化、低成本、分布式存储;通过面向工业大数据分析负载优化的存储读写技术,实现分析工具对数据的高效存取;通过一体化元数据技术,实现对数据的工业语义化组织与高效检索。面向分析优化的工业大数据存储架构如图1-4所示。其支持时序数据存储、关系数据存储、对象数据存储。

工业大数据的强机理与强关联性决定了只有建立业务上下文模型,才能有效进行后续的分析与应用,如设备全生命周期档案(设备智能运维场景)、物料流转与工艺状态档案(质量分析场景)、需求动力学关系图(需求预测场景)等。除了多源异构数据存储引擎的基础能力,还需要提供行业数据建模及数据查询。例如,设备全生命周期档案记录了设备不同维度的信息,包括设备基本信息、设备结构(Bill of Material,BOM)、维修履历、故障记录、异常预警记录、工况等。

图1-4 面向分析优化的工业大数据存储架构

在构建行业数据模型时,不仅要注意多个数据源在数据结构(Data Schema)层面的关联,还要注意在业务语义层面的处理,包括编码间的映射关系(如设备编码规则改变前后的对应问题等)、同义词(如风速在不同时期数据标准中的字段名可能不同等)、字段名相同但业务语义不同(以油气生产中的“产量”为例,井下产量、井口产量、集输产量等不同口径的“产量”,由于测量方式、测量环境、测量标准的不同而存在很大差异)等问题。大数据平台在提供行业数据建模工具时一定要注意业务语义层面的需求。

以行业数据模型为基础,大数据平台提供基于图搜索技术的语义查询模型,以友好的方式支撑设备的管理和分析,以风机为例,如图1-5所示。叶片断裂后,整机制造商的运维主管想要查看并确认是否为叶片批次问题(即与当前风机使用同一批叶片的风机的近期机舱加速度是否正常)。在基于图搜索技术的语义查询模型的支持下,应用开发者无须编写复杂的表间关联语句,大大减少了应用开发的工作量。

图1-5 基于图搜索技术的语义查询模型(以风机为例)

2)工业知识图谱

在设备运维中,除了设备基础数据,通常还存在大量设备故障记录、设备维修过程记录等非结构化数据。这些记录中包含大量故障征兆、排查方法等经验知识,对后续的设备运维来说,具有很高的借鉴和指导价值。通用的文本分析缺乏行业专有名词(专业术语、厂商、产品型号、量纲等)和语境上下文(典型工况描述、故障现象等),导致分析效果欠佳。需要构建特定领域的工业知识图谱,并将工业知识图谱与结构化数据图语义模型融合,以使查询更灵活。

3)工业大数据分析模型的低代码开发与非侵入式并行

通过丰富的分析算法库和可视化分析建模环境,可以实现低代码开发,能够大大降低工业大数据分析的技术门槛。基于非侵入式并行技术,大量的现有分析模型资产可以通过低代码方式迁移到大数据环境中,使开发效率提高数百倍。执行引擎采用MapReduce、Spark、Flink等主流并行计算框架、分组识别和匹配技术、非侵入式封装技术等,能够高效处理海量数据,实现敏捷的工业大数据分析。

大数据平台也需要支持已有分析模型的快速成熟。很多工业企业积累了不少单机分析模型(如Matlab、Python、R等),但缺乏在大数据集上的验证工作。经典的大数据并行化分析系统要求重新编写分析程序,但其算法库(如MLlib、Mahout等)对工业分析方法(如信号处理、系统辨识等)的支持有限。在很多工业分析场景中,并行化数据通常按照有明确业务语义的字段进行分组(如风功率曲线计算按照风机、月份进行并行化等)。因此,工业大数据平台应该支持非侵入式Matlab、Python、R并行化,用户只需指定可并行化分组的数据字段,并对单机分析程序做简单适配,就可以直接在大数据平台上实现分析模型全量并行化,通过大数据的迭代去伪存真,探究海量数据背后的一般性规律,实现企业已有分析资产和实践经验的快速变现。

2. 工业大数据分析

(1)工业分析算法库:丰富的通用分析算法库能够支持更多“公民数据分析师”参与统计分析建模。专业算法库可以降低专业数据分析师解决工程领域数据分析问题的技术门槛。在专业算法上,应该特别注重时序模式算法(针对传感器数据)、工业知识图谱算法(针对日志等文本数据)及针对特定领域的算法,如旋转设备的振动分析算法、压力容器的缺陷识别算法等。

(2)机理模型、经验模型、统计学习模型的融合 [4] :在不同场景中,机理模型描述物理过程的精度不同,分析模型的可靠性也不同,将分析模型与机理模型融合能够构建出可解释性更强且精度和可靠性更高的模型。

(3)工业大数据分析方法:指导工业大数据分析问题的识别、落地与执行。

3. 工业大数据治理与管控

工业大数据“用”数据,更要“养”数据。数据质量是数据价值的生命线,数据治理则是已被金融、电信、互联网等行业实践证明的主要的数据质量保障手段。调查显示,我国工业领域只有不到1/3的企业开展了数据治理,51%的企业仍在使用文档或更原始的方式管理数据。工业企业应该把数据治理放在与大数据平台建设同等重要的位置。国际数据管理协会(DAMA)提出了一系列数据质量度量标准和数据治理方法 [15]

工业大数据蕴含工业生产的详细情况及运行规律,承载了市场、用户、供应链等重要信息,是工业企业的核心机密,也是工业互联网的核心要素。因此,需要在数据存储层和运行分析工具时建立统一的安全管理机制,实现对数据的细粒度和全生命周期安全管控;模型资产等知识产权的保护应通过文件级别的高级加密标准进行加密。需要在数据安全、模型安全和系统安全等方面统一考虑系统安全架构,如图1-6所示。数据安全是关键,模型安全是必需品,系统安全是根本,最终的实现需要从技术和管理两个方面进行保障。

图1-6 系统安全架构

4. 工业大数据规划与实施

大数据规划宜采用“业务导向+技术驱动+数据支撑”的方式,客观评估技术可行性,考虑全生命周期和后续迭代,统筹规划建设,具体步骤可参考工业大数据的STEP-DO方法,如图1-7所示。

图1-7 工业大数据的STEP-DO方法

工业大数据是推进工业数字化转型的重要技术手段,需要实现“业务、技术、数据”的融合。这就要求从业务的角度审视当前改进方向;从IT(Information Technology)、OT(Operational Technology)、DT(Data Technology)等角度思考新的运作模式、新的数据平台的应用和分析需求,客观评价技术可行性;从数据的角度审视如何通过信息的融合、流动、深度加工等手段,全面、及时、有效地构建反映物理世界的逻辑视图,支撑业务运作与决策。 fMkl+TbieWIyd2CHjn9v775+9yBWXeEZ3IX679DrYTh00dthEUYmJVCl/Q0DKm7k

点击中间区域
呼出菜单
上一章
目录
下一章
×