购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 工业大数据分析的特点与挑战

从宏观层面来看,工业大数据和商业大数据的分析方法论没有本质区别,仅在分析对象、数据特点、现有基础、应用期望等方面存在较大差异。一些简洁的大数据思维(如从样本到全量思维、从精确到模糊思维、从因果到关联思维等)无意中脱离了上下文和应用场景的限制,很容易误导工业大数据分析实践。

2.1.1 数据视角

从数据的角度来看,工业大数据分析具有不完备、不完美、不均衡、结构性强等特点,如表2-1所示。

表2-1 工业大数据分析的特点

工业大数据分析的特点决定我们要相信数据,但不能迷信数据。与运作性应用(Operational Application)和数据平台相比,在数据分析及其应用中遇到数据质量问题的可能性更高。原因在于:①数据分析通常需要将多个数据集关联,在单独看每个数据集时,数据质量问题可能不明显,但多个数据集关联后,数据质量问题通常会很明显;②通常需要从业务角度理解和分析数据,可以将业务语义层面的数据异常纳入数据质量问题。

2.1.2 应用视角

从应用对象、应用要求的角度来看,工业大数据和商业大数据的区别如表2-2所示。

表2-2 工业大数据和商业大数据的区别

在非严格意义上,工业系统和商业系统都是“人造”系统。工业设备由人根据自然规律设计和制造出来,并按照一定的工程和管理方法运行。商业系统的交易规则、运行规范也是人设计出来的,并且很多都以计算机的形式逻辑为系统支撑(如电信、金融、电商等)。但两者在研究对象、现有基础和应用需求等细节层次上存在显著差异。工业系统背后的自然规律是隐性的“强”约束,而商业系统背后更多的是显性的“规则”。工业系统可以由很多“中观”机理模型刻画,而商业系统对人的行为仅有一些“宏观”层面的认识,且商业系统中的分析建模通常也不需要到“中观”(例如,对于推荐引擎来说,只要人群颗粒度在统计意义上有效即可)。

对数据分析与挖掘的期望是在既有认知基础上更近一步。工业系统和商业系统现有基础的不同导致两者在分析方法和技术上存在一定差异。工业系统通常存在很多机理模型,但在实际运行中还存在很多待解决的问题。第一,机理模型常常有很多未建模因素。机理模型通常基于一定前提或假设下的物理规律,抓住了物理过程的“基本面”,为设计提供了重要指导,但在日常运行中还是需要考虑这些未建模因素的影响;第二,机理模型中的不少参数很难被精准测定,有些输入(或干扰)很难测量(或测量成本太高),这就需要在运行过程中进行定期干预;第三,有些过于“微观”的机理模型(如电化学腐蚀过程等)在实操中很难定量。因此,一个实际的工业系统需要多个机理模型同时刻画,这也导致有时模型的复杂性(推演复杂性或计算复杂性)会阻碍实操指导。利用数据分析手段,基于历史趋势或短时观测,通过“拟合”或“插值”方式“推测”系统的行为反而更加简单、有效。但工业大数据分析要建立在工业系统运行机理基本面的基础上,否则很容易陷入局部空间过拟合的局面。 5RlQixlVt+5fJlIX/p/HsJH3APX2V939oTJfHie9Q5PGmCUo5Kene16YqSAT1Ibz

点击中间区域
呼出菜单
上一章
目录
下一章
×