智能制造15讲最新章节_李东红著

七、工业大数据与智能化

智能制造包括感知、决策等阶段，而感知和决策都需要知识。工业大数据为知识的产生带来了新的方式和巨大的改变，故而能在促进智能化的过程中起到关键作用。这就是工业大数据的意义所在。

然而，大数据不是天然就能具备这些能力的。为了让大数据有效地支撑智能制造，必须对工业大数据的特点进行研究，进而有意识地建立工业大数据的技术体系。

众所周知，大数据有著名的“4V”（Volume，Variety，Velocity和Value，即规模大、类型多、速度高、价值密度低）特征。然而，这四个特征是以商业互联网企业为背景提出的。而且，“4V”特征是从IT技术人员的角度看问题，重在强调数据处理的困难，而不是从需求的角度看问题。从这个角度认识大数据，难以与价值创造的逻辑联系起来。

我们知道：工业企业并不怎么关心数据处理上的困难。他们关心大数据的原因，是希望它能为企业带来价值。事实上，数据量大本身并不能保证数据有用，也未必会带来机会。正如DIKW体系理论所强调的：如果数据之间缺乏关联，再多的数据都是垃圾。

在互联网领域，大数据一般指PB（1PB=1024TB）级别以上的数据量。而工业企业很少有这样的数据量。如果按照数据规模定义大数据，工业企业往往就与大数据的概念无缘，也就与大数据的机会无缘。但我们知道，ICT带来的数据存储能力的上升，确实为工业界带来巨大的机会。而且，工业数据在达到PB级别之前就“难以处理”了。故而，我们倾向于重新定义“工业大数据”的特征和方法，来抓住这个机会。

大数据带来的机会本质在于促进知识的获取，从而促进智能化的应用。有人提出：“大数据揭示的是相关性而不是因果性。”——这个观点强调的就是大数据便于获得知识，只不过获得的是“相关性知识”。在商业互联网领域，“相关性知识”的价值很大，可以用来解决很多的问题，并创造很大的价值。然而，这个观点不能直接用于工业界。我们知道：工业界对分析结果的确定性要求很高。如果知识仅仅停留在相关性，是很难被接受的。所以，工业界有人强调，从大数据中获得的必须是因果知识。但遗憾的是：从数据中获得因果知识几乎是不可能的。

考虑到这些矛盾的观点，本文在总结前人观点的基础上，将工业大数据的特点归纳为四个方面：

第一个是“不纠结于因果”。从大数据中提炼工业中所需的知识，要以因果关系存在为基础。但应用知识时，却不必按照科学原理的逻辑去计算和应用。因果关系的存在，是专业人士来确定的；但因果关系涉及的量化指标，是数据来确定的。比如：“温度影响产品质量”的因果关系存在，是工艺人员确定的；“温度在320℃时最好”，是大数据体现出来的生产实践的结果。工艺人员能够确定因果关系存在就可以了，却未必要去研究“为什么320℃是最好的”。强调“不纠结于因果”，可以让知识获取变得简单。

第二个是“样本=全体”。这个条件的内涵是：当前发生特定问题时，能够从历史中找到相似的案例。这些案例就是知识，告诉人们成功的经验和失败的教训。现在，越来越多的人认可这样的观点：大数据的优势不在于“大”，而在于“全”。“大”只会增加计算机处理的复杂性，而“全”则保证了知识的存在性，保证了价值。

第三个是“混杂性”。混杂性，是指数据来源的角度和场景很多，可以从多个方面对知识进行印证，提高了知识的可靠性。知识质量的提高，也为“不纠结于因果”提供了条件。我们知道，可靠性是工业界追求的重要目标，追求可靠性对工业人的方法论有着巨大的影响。所以，用“混杂性”保证知识可靠性的意义也是巨大的。

第四个特点是数据的完整性、准确性。英国前首相迪斯雷利（Benjamin Disraeli，1804—1881年，1868年和1874年两度出任英国首相）有句名言：“世界上有三种谎言：谎言、弥天大谎和统计数字。”数据可以证明一件事情，也可以误导人们的认识。我们知道：一个事件的发生可能会由多种原因导致。如果事件相关的因素记录不完整，就可能犯“以偏概全”的错误，看到现象而忽视本质。所以，应用大数据的前提之一，是要促进数据收集的完整性、准确性，避免误导人们的决策。

显然，大数据的这些优势不是天生具备的，而是需要人们有意识地去准备。在推进智能化、推进工业互联网应用的过程中，也会为工业大数据的收集带来很多方便，提供机会。从这种意义上说，工业大数据、智能化和工业互联网的应用是互相促进的。

这样相互促进的案例很多。例如，GE通过互联网，把飞机发动机的相关数据收集起来，形成大数据体系；从中提炼出各种知识，进行设备故障诊断。其实，设备故障诊断是一个发展了很多年的领域。但是，传统的设备诊断往往针对特定的某台设备。判断设备出现故障的依据，本质上就是去发现现在和过去的不同，如振动频率发生了改变。传统方法有很大的局限性。比如，故障样本量不多的时候，判断的准确度就不高。事实上，一台机器很少反复发生同样的故障，故障的数据样本往往不会太多。

但是，现在的情况就完全不一样了。通过工业互联网，可以把成千上万台机器的数据汇总在一起：一台机器现在发生的故障，很可能另外一台也发生过。这就是所谓的“样本=全体”。在这种情况下，一台机器故障形成的知识，就可以重用在其他机器上，实现知识的共享。这样的条件，是过去完全无法实现的。

另外，在利用大数据的时候，不要仅仅考虑从大数据中提取知识。事实上，大数据也可以承载知识——承载过去承载不了的、信息量极大的知识。产品设计的知识就是典型。中国航空工业集团公司信息技术中心首席顾问宁振波先生曾经指出，某型号飞机的数字化设计信息多达4TB。特定企业的产品设计数据针对个性化需求（如广告设计、板式家具设计等）时，所需要的数据量就更大。这些设计出来的“知识”占用大量的存储空间，过去很难存储。随着大数据时代的到来，过去的数字化知识都可以存储起来，以便于以后“重用”，大大提高设计工作的效率。