工业大数据与知识图谱最新章节_王坚著

2.2 工业大数据技术布局

工业大数据技术是指围绕工业大数据的采集、处理、存储、分析、应用等各个阶段，为深度挖掘工业大数据潜在价值的所有技术的统称。工业大数据技术是实现工业大数据与工业领域深度融合的重要支撑，代表了工业大数据推动企业转型发展、实现智能制造的能级水平。

2.2.1 工业大数据技术的特点

对工业大数据进行分析已经超出了常规数据处理的能力，需要发展新的处理和分析技术及工具，因此工业大数据技术应运而生。相比其他行业应用的大数据，工业大数据有其自身的特点。工业系统所涉及的物理与化学变化使其复杂性远远超出其他大部分行业和领域。根据实际情况来看，工业大数据应用的最大瓶颈在于精准性。企业用户总是希望能从大数据分析中获得更加精确的控制模型，但是由于受到采集手段和环境的制约，大数据本身缺乏全面和高质量的数据，尽管大数据分析技术有效，也较难获得令用户满意的分析结果。

抛开因大数据质量低下而导致的分析结果不精准问题，从技术本身来看，工业大数据技术可以被认为是“数据创造智慧”的最佳手段。与传统的数据分析技术相比，工业大数据技术在数据处理类型、处理方式和处理性能方面呈现出下面几种特性。

1.工业大数据技术善于处理“非结构化”数据

随着互联网技术在工业领域的广泛渗透，工业数据源从企业内部网大范围拓展至整个产业链的制造网络，企业不仅可以精准、高效地采集自身的业务信息和生产信息，也可以轻松地获得来自各级供应商和合作伙伴的生产信息、销售商的市场信息、互联网上的用户需求等海量数据。这些信息包含文本、视频、图像和语音等多元化结构数据类型，其中半结构化和非结构化数据占主要比重，这些信息相比结构化的生产经营记录，涵盖的范围更广，隐含的企业价值更大。依赖良好结构化数据的数据库处理技术难以适应大数据时代的“非结构化”特征，而工业大数据技术最大的潜力之一就是能有效地处理非结构化数据的复杂性，深度洞察非结构化数据中的巨大价值，帮助企业提高核心竞争力。

2.工业大数据以语义网为利器，实现多源异构数据的全方位整合

工业大数据来源复杂，包括了来自企业内外部环境的经营管理数据、产品数据、生产数据、物流数据和运维数据等类型。数据形态呈现结构化、半结构化和非结构化相互融合的多维多样的特性，且分散存储特征明显。在此环境下，形成了众多的“信息孤岛”，难以进行统一的价值挖掘和知识发现。利用简单的关系型数据检索模式已经不能满足工业大数据的分析需求。为了解决数据的多源异构性所带来的大数据分析的瓶颈，构建语义网是一种必不可少的手段。语义网是一种进行语义判断的智能网络，可以实现人与电脑之间的无障碍沟通。以语义网的本体技术为工具，可以建立与多源异构工业大数据的语义一致、相互关联的统一数据模型，通过数据模型的语义关联，实现产品全生命周期的跨企业、跨部门、可追溯的工业大数据资源在统一描述框架下高效、安全、实时的整合和共享。

3.工业大数据的庞大体量需要“云架构”的存储和计算模式

当前，工业大数据急速增长，体量庞大，数据量从TB级别跃升到PB级别。Facebook一分钟内就能产出350GB的数据量，全球一分钟内总计发出2.04亿封电子邮件。如此巨大规模的海量数据已经远远超出以数据库为基础的集中存储和集中计算模式的处理能力范畴。以分布式存储和分布式处理为核心的云计算为工业大数据分析提供了超强的解决方案。狭义地讲，云计算是一种通过互联网以服务的方式提供动态可伸缩的虚拟化资源的计算模式，能够满足大规模数据的存储与计算需求。

4.工业大数据的“流式计算”满足时效性需求

工业大数据的指数级增长使数据的产生和传播呈现出鲜明的流式特征，更为重要的是，数据的有效价值具有时效性，要求大部分数据在较短时间内快速处理。工业大数据技术提供了批量处理和流式处理两种计算模式。前者对静态数据进行存储和分析，适用于对数据精准度和全面性有较高要求的应用场景，是一种线下分析；后者处理的是动态实时数据，不需要对数据预先处理，可以实现在线分析。“流式计算”的实时处理能力保证了数据价值的时效性，但数据分析的精准性较批量计算差。

5.工业大数据包含深度价值，需要“深度学习”

由于一般的大数据的价值密度低，质量低下，但工业大数据蕴含巨大价值，价值信息隐藏较深，相比传统数据挖掘与分析技术，人们对工业大数据技术的学习能力提出了更高的要求，希望工业大数据能够实现“自主学习”，即在无外界干扰的情况下，能从海量、多类别、快速变化的数据中发现价值。目前，“深度学习”与“大数据”的结合研究引起极大关注。深度学习是机器学习的一个分支，它是一种“无监督”学习，能够自主学习客观事物并对其进行识别。两者相结合的一条有效途径在于，基于深度学习提供的高层次复杂模型，研发适合大规模数据的学习算法。

6.工业大数据从“数据”中进行知识发现

知识是人类认识世界并进行创新活动的核心引擎。在大数据思维未出现之前，工业领域中的知识发现主要以专家经验凝练和精准的模型分析为手段，这种模式难以应对企业在多变的全球化市场环境中所面临的压力和挑战，知识的获得及利用不能有效增强企业的核心竞争力。工业大数据技术脱离了对模型的依赖并摒弃了精准化分析，而是从巨量的、混乱无序的数据中挖掘深层次的价值信息，寻找蕴含在数据关联结构之间的知识，使企业具备更强的洞察力和决策能力。工业大数据技术从数据本身进行知识挖掘，因此更能保证知识的有效价值及时效性。

2.2.2 工业大数据技术发展趋势

1.大数据采集技术

工业大数据的多模态特征增加了大数据的采集难度。从来源看，工业大数据来自企业内部的物联网数据以及企业外部的社会网和互联网数据；从类型看，大数据包含结构化、半结构化、非结构化数据。需要针对数据的不同来源和类型，采取适当的采集手段。

1）传感器采集

企业物联网数据主要来自生产设备的时序数据，这些数据一部分通过PLC、SCADA、DCS、MES的传感器采集，另一部分通过数据接口从实时数据库中获得。时序数据的采集频率高、吞吐量大，例如用于设备诊断的时序数据的采集频率可以达到毫秒级以上。时序数据主要用于过程监控、质量监测、设备诊断等场景，要求数据采集具有较高的容错性，防止数据缺失，并能够对异常数据进行自动分拣。

2）文本分析

企业的文件系统是物联网数据采集的重要对象。针对文件系统中占比较大的文本这一非结构化数据，需要采用文本分析手段将文本转化为可处理的结构化形式。这属于自然语言处理技术范畴，将无结构的文本符号中包含的词、语法、语义等信息进行理解、抽取、表示，挖掘文本中隐含的事实和观点，对文本进行语义上的理解。文本分析的主要方法包括词频统计、分词算法、特征词选取、主题生成模型等。

2.网络爬虫

网络爬虫按照一定的规则自动地从互联网上下载满足用户检索需求的网页。通用搜索引擎大多基于关键词进行搜索，并且尽可能地最大化网络覆盖率，难以满足不同用户的个性化搜索目标。网络爬虫可以高效率处理互联网上的音频、视频、图像、文本、数据库等各种类型数据，并且支持基于语义信息的搜索，能紧密结合用户主题开展搜索工作。网络爬虫算法主要包括通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。

3.大数据预处理技术

由于数据采集手段的限制，采集到的原始数据往往存在数据缺失、数据异常、数据冗余等问题，为保证数据质量，在存储之前需要对原始数据进行必要的处理，提高数据在后续分析中的利用率。

1）数据预处理

在原始数据中，有三种类型的非正常数据：①格式、类型、属性值存在错误或异常的噪声数据；②属性值缺失的不完整数据；③存在冗余的不一致数据。这些数据需要经过清洗、集成、转换、削减等预处理操作。清洗是指消除噪声数据中的错误；集成是将经过清洗的不同来源、不同类型的数据进行合并建立数据集；转换是指将一种格式的数据转换成另一种格式的数据；削减是指删除数据中的冗余，减少不一致性数据。数据预处理是进行数据存储之前的必要操作，可以缓解因采集错误造成的数据质量低下的问题。

2）边缘计算

数据持续不断地爆炸性增长使“先存储后计算”的数据处理架构不堪重负，难以满足实时快速响应的计算要求。边缘计算将计算与存储资源前移到最靠近移动设备或传感器的网络边缘，它将部分计算和处理过程通过本地设备完成，不需要交给云端，极大地提高了数据处理效率，不仅降低了云端的计算负荷，更重要的是避免了因延迟、抖动等网络不稳定因素造成的响应慢和处理不及时的问题。边缘计算体现了工业互联网的分布式环境特征，将完全基于云端的中心计算模式转变为“边缘+中心”的组合模式，能够较好地满足大数据大规模应用的计算服务需求。

4.大数据治理技术

随着工业大数据多源异构的特征逐渐增强，数据之间的复杂关联和紧密耦合的相互依存度使数据分析任务异常困难，改善数据质量和明晰数据之间的语义互联性是工业数据治理的根本任务，也是实现工业大数据价值的重要基础。

1）大数据治理

围绕产品全生命周期的各个阶段，企业内部纵向层次之间、企业与企业之间、企业与用户之间存在大量的各种工业系统、框架、工具软件、应用程序、数据接口、外部资源等，企业对于整个信息链中各组件之间数据流动的掌控以及数据血缘的追溯变得愈加困难。另一方面，工业大数据分析是要找出数据之间的因果关联，能够从语义层面解释数据之间的内在关联。为了达到这一目的，企业需要了解数据元素的含义和上下文（语义），以保证不同来源、不同类型的数据集在整个信息链中的语义等效。因此，工业大数据综合治理是开展工业大数据分析的基础和先决条件，它可以有效解决数据获取类型僵化、数据存储割裂、数据追溯困难、数据存储同质异构等大数据应用所面临的实际问题。

2）语义网治理技术

语义网是目前开展大数据治理的主流方法。语义网是由万维网联盟的蒂姆·伯纳斯·李在1998年提出的一个概念，它使计算机能够在语义层面进行理解、推理和判断。该技术使计算机不仅能够理解词语和概念，还能理解它们之间的逻辑关系。运用语义网的本体模型建立描述数据语义关系的元数据模型，元数据模型中的语义关系使企业可以清晰地了解自身的业务术语、规则、流程、定义、运算法则、模型等；进一步，将大数据集与元数据模型进行映射，使企业可以更好地掌控和追溯各个数据元素在整个信息链中的流动情况，并根据大数据应用目的从语义层面查询紧密关联的数据元素。

5.大数据存储技术

相比互联网与消费领域，工业大数据增长速度更快、处理效率要求更高，为了应对工业大数据的高性能、高吞吐率、大容量的数据存储要求，需要更加高效、可靠、安全的大数据存储技术。

1）分布式存储

工业大数据的多模态、强关联、高通量的特征使它需要大容量存储空间、高速的访问性能、灵活的可扩展性存储架构。单机无法处理大数据的海量数据，需要依靠集群方式的分布式存储实现大规模数据的共享和利用。分布式存储架构由分散在不同地理位置的物理磁盘空间组成，这些分布式磁盘空间构成虚拟存储设备，数据分散放置在这些虚拟存储设备上，并利用位置服务器定位存储信息，存储架构按照检索需求自动地定位数据的物理地址并进行相关数据的整合工作。虽然在物理上数据属于分布式存储，但在逻辑上已经形成包含各个数据要素的完整数据视图，对用户来说完全屏蔽了数据存放的实际物理位置。分布式存储的多服务器部署模式不仅满足了大容量存储空间的要求，而且提高了数据存储和访问的容错性和可靠性，相比单机模式的集中式存储更加安全高效。

2）云存储

云存储是在云计算的概念上衍生发展起来的一种在线网上存储方式，其本质与云计算的分布式处理一样，属于分布式存储解决方案。云存储服务提供商是由多台虚拟服务器组成的大型数据中心，数据托管用户以购买或租赁的方式使用数据中心空间存储数据。云存储为用户提供了一种安全、高效、灵活、可扩展的存储服务，通过供应商的基础设施，数据可以在任何时间、任何空间通过联网至云端被上传或访问。云存储的存储设备数量庞大，分布在不同的地理空间，存储设备之间通过集群、分布式文件系统、网格计算等技术进行协同，向用户提供统一的服务接口。

6.大数据分析技术

工业大数据技术的主要作用是从数据中挖掘潜在的有价值的知识，优化和提升企业的核心竞争力。作为大数据应用的核心环节，大数据分析技术决定了从数据中获取知识的能力和水平。

1）数据挖掘

20世纪70年代，随着数据库和网络技术发展，人们需要发现隐藏在数据背后有用的信息，数据挖掘技术由此产生并发展起来。数据挖掘是指从数据库的大量数据中挖掘隐藏在数据关联中的有价值的信息，这些数据对象可以是数据库、社交媒体数据、多媒体数据、时序数据、互联网数据、文本等结构化数据和非结构化数据。数据挖掘分为有指导的数据挖掘和无指导的数据挖掘。前者主要解决分类、估值、预测等问题，后者用于关联规则发现和聚类分析。数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。数据挖掘与计算机和人工智能科学领域的发展密切相关，目前该技术已经应用于社会活动的各个领域，成为从数据中获取价值的有力手段。

2）机器学习

机器学习是人工智能科学研究的核心内容，从1950年艾伦·图灵提出建立一个学习机器的想法到当前的21世纪，机器学习的理论与方法不断发展变化，重要研究成果已经被广泛地应用于解决各种复杂工程问题和科学研究领域。机器学习是研究如何使计算机模拟人的学习行为，即通过持续的实践活动使计算机不断获得新的知识和技能，使其自身功能行为得到优化提升。随着大数据时代的到来，体量庞大的各类数据不断涌现，数据驱动的智能决策思维推动社会各个领域的数据分析需求日益增强，机器学习成为高效获取知识的重要利器。不同于数据挖掘通过算法模型发现数据中的潜在关联，机器学习通过模拟人的逻辑推理行为（符号主义）、人脑生理结构（连接主义）或者人与环境之间的刺激-反应机制（行为主义）获得类似人类学习的能力，能够完成处理复杂大规模数据的深层次分析任务。当前，人工智能进入了2.0时代，在核心算法上随着深度学习技术的发展，机器学习向前迈入了一个新的发展阶段，深度学习算法对类型复杂多样、质量低下的大规模数据的分析具有性能优势，它通过含有多个隐藏层的多层感知器，逐步将“底层”的特征转换成“高层”的特征，即利用大数据来学习特征，与人工构造特征的浅层学习算法相比，极大地提升了机器刻画数据本质信息和从数据中发现知识的能力。