数据建模、快速索引、关联表示、全链搜索和集成演化是构建制造业多价值链协同数据空间的关键支撑方法,有助于提高企业的数字化水平,实现全价值链数据的协同治理与价值信息的挖掘。本节分别对其发展现状进行分析。
基于数据空间的数据建模,可以高效利用制造业多价值链协同的过程中企业产生的大量异域、异源、异构数据进行复杂多维度分布式数据分析。在数据建模过程中,需要依据数据特性、用户目的进行建模。在制造业多价值链协同数据空间中,往往需要对文本型、数值型、视频型等数据进行建模。针对邮件和表格中的文本型数据,文献[11]提出了一种基于表格检索和机器学习二阶段的表格相关文本识别方法,阶段一利用表格内容进行全文检索,获取潜在相关文本。阶段二构建机器学习模型,判断表格与潜在相关文本间的相关性,从而实现文献中表格相关文本的自动识别。文献[12]提出了基于人工智能方法,采用光学字符识别(OCR)技术,对图像中的文本进行识别。针对数值型数据,这一类数据结构清晰,一般包括产量数据、交易数据、营销数据等。数据建模的关键点在于需要依据工程实际用户进行建模,文献[13]为了解决新系统建设初期出现的用户满意度下降、投诉量增加的问题,提出建立基于XGBoost的用户投诉风险预测模型来对用户投诉行为进行预测。文献[14]针对备件需求量预测这一典型问题,结合基于状态的维修实际,研究了定期检测策略下备件需求量的预测方法。对于视频类数据,以企业厂房的监控信息为例,文献[15]提出了基于视频的行人轨迹信息提取及异常行为检测与分析研究,解决了依据视频监控迅速且精准地定位异常事件的问题。文献[16]针对现实生活中未经剪辑的视频的效果表现不理想、信息过于冗余问题,提出了一个视频关键运动信息提取算法,用于捕捉视频中的关键运动部分,并以此进行多尺度时间和空间特征建模与融合,使得视频中的时序信息与运动空间场景产生联系。综上分析可知,现在已经有相关研究针对各类型数据,但是值得注意的是在不同的情境下数据建模与数据特点的不同,数据建模具有很大的差异性。因此,亟需依据制造业各类不同的应用场景,提出科学、有效且适用的数据建模方法。
快速索引指的是从多源数据、时空数据、多模态数据角度构建多链多源多模态数据的存储与索引,实现复杂数据的快速检索,并以模糊查询的形式为用户提供简便的查询入口,为其他服务提供基础。现在已经有部分学者对快速索引进行了相关研究,文献[17]提出了有效利用数据存储空间,时间序列数据存储采用分布式压缩存储结构,对整数、浮点数、布尔值、字符串和时间等不同类型的数据采用不同的压缩算法,每个存储节点采用日志结构化合并树的数据结构来组织数据,结果表明该方法单机查询性能好。文献[18]针对电力系统中的海量数据,结合Jimo大数据的动态可删节索引技术,提出一种适用于电力大数据的索引机制与查询方法,并构建了电力大数据高效索引与快速组合查询的一体化解决方案。实际的计算分析表明,该算法极大地提升了电力大数据的组合查询效率,很好地满足了系统的性能需求。文献[19]提出一种大规模数据的潜在语义索引(LSI)方法,给出一个降维问题的统一框架。利用该技术在最大程度保持LSI降维效果的同时,简化LSI的计算,使其能够应用于大规模数据。结果表明利用该技术在最大程度保持LSI降维效果的同时,可以简化LSI的计算,使其能够应用于大规模数据。总体而言,已经存在对数据快速索引的研究,但是实际上企业面临的数据具有多源特性、多时空特性、多模态特性。如何构建系统性框架,对多源数据、多时空数据、多模态数据进行分析有待深入探索。
关联表示指的是针对制造业全价值链活动过程中产生海量多源异构数据进行数据融合和数据关联,实现产品物料母件与子件的有效关联,并提供关联信息的可视化查询。文献[20]针对多模态数据中存在细粒度信息以及空间关系信息表示不充分、单模态的偏置问题和无效区域偏置融合问题,构建了多模态数据关联表示方法。文献[21]为了解决传统关联规则忽略了规则之间的关系和影响,提出了一种基于贝叶斯网的关联规则表示方法,实验表明这种方法生成的贝叶斯网不仅能够有效地表示原有的关联规则的含义,而且表现了关联规则之间的联系,从而扩展了关联规则的应用。文献[22]针对忽略文本中实体间的语义关联的问题,提出一种利用实体描述文本进行增强学习的方法,基于文本挖掘出关联性实体并对关联性进行分级,将关联性作为辅助约束融合到知识图谱的表示学习中。实验结果表明,该辅助约束能明显提升推理效果,优于传统的结构化学习模型以及基于深度学习的文本和结构的联合表示模型。分析可知,现在少有文献对制造业全价值链活动过程中所产生的海量多源异构数据进行关联性分析、同组数据内的数据分析、不同组数据之间的数据分析。
在数据空间中,如何实现从海量的全链路数据中检索出所需要的有价值的数据成为关键。数据检索,顾名思义,是指根据用户所提出的问题,经过选择、整理和评价,选出能够回答问题的数据。通过检索,能够为用户决策提供可靠的依据,检索出的数据越全面、越准确,越能保证做出的决策的合理性。文献[23]研究一种基于知识图谱的全链路数据自动检索方法,该方法结合知识图谱理论,构建全链路数据的知识图谱,对全链路数据实施关联整理,结果表明:与基于簇内乘积量化的最近邻检索方法、基于类别分组索引的检索方法、基于加权模式挖掘与规则混合扩展的检索方法相比,所研究检索方法平均倒数排名指标值更小、命中率更大,说明所研究检索方法性能好,检索结果更加全面和准确。文献[24]针对智慧图书馆发展需求,提出了一种深度学习模型,用于查询文档文本与关键字之间的相关性。首先计算查询和文档之间的可变长度Delta矩阵,描述两个文本之间的差异,其次将其传递到深度卷积阶段,再经过深度前馈网络以计算相关性得分,实验结果证明该模型性能优于同类的最新深度学习方法。文献[25]也对电力大数据的检索需求、检索关键技术、检索平台的构建进行了探究。综上分析可知,现在的数据检索是单一模态的,且数据系统也是单一面对某一个具体用户的,而制造业中数据一般是跨模态、跨链检索系统的,依据制造企业特点构建数据检索框架,实现跨模态、跨链检索是数据采集与数据应用的关键点。
集成演化包括面向历史数据的分析挖掘服务与面向未来趋势的演化预测服务,立足于数据集成挖掘结果和未来演化趋势,制造企业可以高效地制定企业发展方向。目前,相关的研究相对比较少,文献[26]为了解决信息孤岛和信息不对等的问题,充分发挥分布式信息系统的优势,以Agent技术为研究基础,提出一种能够在分布式开放网络环境下对信息系统进行集成演化的支撑环境,实现不同系统之间的在线协同与数据流通。文献[27]提出了一种面向代码演化的集成软件缺陷预测模型,通过选择与缺陷相关联的代码度量元以及版本间的演化度量元,由决策树(J48)、逻辑回归(LR)、神经网络(NN)、朴素贝叶斯(NB)各自迭代产生分类器,结合Adaboost集成学习方法,使其在训练分类器时更关注每一轮的错分元组,得到不同的预测集成模型。而在制造企业中,需要分别在供应链、生产链、营销链和服务链等异质链条上的结构化与非结构化数据,进而使用数据挖掘方法分析集成数据的时空间演化趋势来预测其未来演化趋势,并使用可视化方法对数据集成信息以及演化趋势信息进行展示,为制造企业的业务决策提供有价值的信息支持。