传统的数据处理主要是针对结构化数据展开,首先是利用关系型数据库对结构化数据进行存储,在此基础上进行聚类等数据分析,这对于少量结构化的数据处理是高效的,但是随着数据量的增多、数据类型的丰富多样,以及数据的多源异构性、数据实时处理的需要,这一处理流程不再适用 [32] 。
而在数据空间中的数据处理中,对于采集到的不同的数据集,可能存在不同的结构和模式,如文件、视频、音频、电子邮件等,表现为数据的多源异构性。对多源异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成一个新的数据集,从而提高数据质量,为后续查询和分析处理结果质量提供保障。
实时数据处理是进行数据分析的基础。随着时间流逝,数据所蕴含的价值也在下降,所以对数据处理的时效性提出了很大的挑战。由制造业数据空间采集的大量实时数据,需要在云端或边缘端进行存储和计算。云计算把握整体,有海量的计算能力、存储能力、应用开发以及模型开发训练的能力,能够在周期性维护、业务决策支撑等领域发挥特长,但却缺少实时性 [33] ;而边缘计算则专注于局部,聚焦实时、短周期数据的分析,能很好实现实时运行环境、实时模型环境、本地存储以及实时响应等功能 [34] 。两者各有所长,相互协同,能有效帮助工业企业实现设备现场的实时分析、应用和控制。