在制造业生产经营过程中,会产生不同来源、多种结构数据的多源异构数据,多元异构数据因其数据来源的多样性、数据种类及形态的复杂性给数据规范化采集与使用带来了一定困难 [4] 。往往由于不同数据源的数据之间可能存在冲突、不一致或者相互矛盾的现象,在如此大量的数据下,难以实现不同数据的检测和定位。目前,数据采集面临着大数据开放流通困难、数据产权模糊、隐私容易泄露、数据采集质量水平仍待提高等问题。大数据开放流通困难主要指客户以及潜在客户的数据采集和管理零散,严重影响数据的流通使用和共享,很难对线上、线下等多个维度的个人数据进行汇总,且采集的数据大多数为静态数据,缺乏实时性。数据采集之后还面临着数据空间构建、数据使用等问题,数据采集阶段的数据质量直接影响数据空间的构建和数据的使用 [5] 。因此,针对制造业的多价值链协同效应,从数据全生命周期角度,构建数据空间数据质量的评价指标体系非常关键 [6] 。
伴随着复杂供应链的数据空间,围绕制造业进行数据分析的过程必然需要依靠场景和业务处理或接触到很多的数据。和传统数据存储相比,这些数据按结构分类分为三种:结构化数据、非结构化数据和半结构化数据。其中,结构化数据是指数据以表格形式存储,并且每个数据字段都有固定的数据类型。这些数据具有清晰的数据结构,可以通过行和列的方式组织和访问,类似于关系型数据库中的数据。非结构化数据是指数据没有固定的格式和组织方式,不容易用表格或数据库存储。半结构化数据介于结构化数据和非结构化数据之间,具有一定的结构,但不是完全按照表格形式组织的。在数据分析和处理过程中,不同类型的数据需要采用不同的方法和工具进行处理。在实际应用场景中,通过利用产品或者制造业中的统一编码规制对关键产品环节进行编码提取转换,从而形成围绕该产品的数据空间。值得注意的是,企业往往从多个数据源头提取数据,因此难免会出现数据缺失、数据异常以及数据统计口径、单位等尺度不同的现象,对数据进行预处理有利于提高数据质量。
数据分析及应用是构建数据空间的目的,是企业提质增效的关键点。按照数据分析流程,可以分为数据筛选、数据分类、数据集成、数据挖掘、数据降维、数据预测等 [7] ;按照应用范围,制造业多价值链协同数据包含了影响因素识别、经营风险识别、产品需求预测、制造企业负荷预测等 [7] 。目前,数据分析及应用较为成熟,但是更需要依据业务特性进行定制相关应用分析算法。
数据空间技术不仅可以满足主体对象对多元、不确定性数据的大量需求,同时作为一种数据管理策略解决了对异构、分散数据的收集、利用与共享 [8] 。伴随着数据处理的快速响应以及高速运算,数据的覆盖面更加广阔、数据利用功能更加多样、数据相关性更强。与此同时,带来的数据安全问题影响着正常的生活生产。在数据的全生命周期中,数据的采集、存储、处理、传输、交换和销毁各个环节都面临一定的风险安全 [9] ,基于数据的全生命周期制定数据安全管理模式可以有效规避风险。因此需要从风险识别、评价、预警和控制四个角度出发,考虑数据空间数据的动态性以及不确定性,对数据进行安全管理 [10] 。