工业大数据工程：系统、方法与实践最新章节_田春华著

1.3　工业大数据的认知辨析

1.3.1　经济与制度视角

从经济的角度可以帮助我们理解工业大数据的价值创造途径与合适的制度安排。为论证“数字化转型的本质是生产力、生产关系的重构”，就需要回答：① 数据作为一种生产资料，是如何转为生产力的？② 从制度安排的角度，一个合理的组织分工是什么？

新制度经济学和新兴古典经济学从交易费用最小化的视角来研究制度安排或制度创新。对于企业，企业模式的交易成本主要包括计划、监督、激励、控制等管理过程所产生的费用。影响市场交易费用的主要因素是空间费用和契约费用。数据（或宏观的数字经济）带来了哪些成本的变化？戈德法布和塔克将其总结为搜寻、复制、运输、追踪、验证等五类成本的降低。数字经济学探索的是当某些成本大幅下降甚至接近于零时，宏观经济模型或产业模式是如何变化的。

回到工业企业，工业企业内部的交易费还体现在决策依赖信息收集、经验知识的积累与传承、决策与物理系统的交互等方面，工业大数据通过大数据领域建模（或数据资源化）、知识沉淀、模型部署应用有效地降低了这些交易费用。在市场交易费用方面，契约费用还包括必要上下文和技能转移的成本，也就是说，为开发一个工业应用，需要了解工艺知识、现场信息和历史信息，数据技术本身不能直接降低这些转移成本。这就涉及工业企业数字化转型的社会分工（例如，哪些适合第三方专业化服务，哪些适合内生组织）和数字化能力建设机制设计的问题。

工业大数据的特点可以从需求通用性、上下文知识传递效率两个维度描述，不同类型的工业大数据对应的社会分工模式如表1-4所示。对于标准的大数据平台或没有业务语义的分析（如图像识别），可以采用标准产品采购模式，通过规模化应用实现经济性；对于有一定个性化，但上下文容易描述清晰的情形，可以采用第三方专业化服务的模式，例如，业务应用定制开发或分析模型研发服务，依靠技能专业化提高整体效率；对于需求通用，但上下文信息很难明确描述，例如，复杂设备诊断，专家需要自主收集所需的数据，这时专家服务是一种有效的方式，依靠专家在知识上的持续积累，提高整体效率；在需求个性化强、专业知识传递效率低、背景信息流动性差的情形下，交易费用远远高于分析技能传递的费用，根据组织经济学原理，最佳的组织形态应该是分析技能向领域专家移动，也就是说，让领域专家掌握基础分析技能，实现内部创新。很多工业分析问题都遵循二八法则，即80%的问题用20%的技术算法就可以解决，其余20%的技术难题留给第三方技术服务商或学界。通常的做法是分层化，底层解决共性问题，逐层缩小范围增加聚焦，在通用性和适用性间折中。

表1-4　不同类型的工业大数据对应的社会分工模式

1.3.2　数据资产视角

随着信息化的发展，信息被视为是与自然资源、物质、人力、财务同等重要的资源，由此衍生出了“信息资源”的提法。数据是信息的载体，“数据资源”可以认为是有含义的数据积累到一定规模后形成的资源，是可以转化为生产力的数据集。现在进一步有了“数据资产”的提法，“资产”在“资源”基础上增加了产权、价值和流通等经济要素，即法律上的数据产权（所有权、使用权、经营权、分配权和收益权）、财务上的定价与估值、市场机制上的流通与交易模式。

但数据或大数据与有形资产有很多不同，数据在产权、价值和流通机制方面还需要做很多工作。数据具备无形资产的四条一般属性，包括可扩展性（可复制的）、沉没性（高昂先期固定成本，但却有非常低廉的复制成本）、外溢效应（竞争优势被注意和复制的可能性）、协同效应（不同类型数据组合的价值存在指数级增长的可能）。与很多无形资产不同，数据还具有反竞争性（数据流通后原始数据并没有消失）、可加工性（可以加工二次数据）、依托性（数据本身没有价值，只有依托业务才有价值）、多样性（同样的数据对不同应用的价值不同）。因为有可加工性，二次数据的产权界定比较复杂，基于数据训练出来的机器学习模型的产权确定和隐私保护变得更加间接。因为依托性和多样性，造成定价与估值上的困难，相同的数据面对不同的业务场景，所产生的价值完全不同。但从微观层面看，数据和工业物料类似，原材料只有经过合适的加工，才能成为对其他工艺环节有价值的物料。面向具体场景的数据才有交换价值，也就是说，数据资产通常面对具体应用场景，这样也降低了数据资产在价值评估上多样性的挑战。

工业数据的一个特点是维度高，一个分析应用所需的数据可能需要从多个不同数据源中加工而来。工业中常见的数据资产包括宏观指示性信息（例如，地域用电数据、风资源信息）、实体画像（例如，企业的用电信息、机械车辆开工信息等），企业内部的数据资产包括上下文信息（例如，地域、设备维修档案）、关键曲线指标（例如，风机的风功率曲线）。最后需要强调，数据是否可以成为资产，不仅取决于数据是否有价值，还取决于数据是否被允许流通，有很多高价值数据（例如，核心工艺参数），因为商务或安全规范要求不能流通，无法形成数据资产，这时候流通的不是数据，而可能是分析模型或数据应用。在工业大数据建设初期，没有必要过度追求数据资产，数据资源才是需要迈过的门槛，只有保证数据可以产生价值，数据资产才是后续发展形成的一种制度安排。

1.3.3　思维模式视角

数据思维已成为逻辑思维、实证思维、构造思维之后的第四大思维模式。实证思维是基于有限观察和控制实验的归纳，逻辑思维是基于若干公理的推理和演绎，构造思维是算法过程的构造与模拟（也称为计算思维），而数据思维是基于数据分布结构的拟合。

数据思维是对其他3种思维模式的有益补充。实证思维和逻辑思维是现代科学体系的基础，基于观察，形成抽象，通过形式化框架，构建一个自洽的理论体系，并接受新实验的证伪检验。构造思维是很多复杂工程研发的典型模式，通过数字空间的迭代，减少物理空间实验的成本。但如果理论模型与物理世界相差较大，这些方式就有一定的应用局限性。例如，化工中的分子扩散、流体流动、热量传递等过程是可以用物理、热力学、化学反应、单元传递函数等数学模型来描述的，进而可以用计算机做化工设备单元设计和全流程集成优化等工作。然而用流程模拟和仿真来解决生产运行问题时，会发现计算结果与实际现场并不吻合，预测误差甚至高达50% 。其主要原因包括未建模要素（理想假设、排除非重要因素）、模型参数不精准、现场缺乏必要的测量数据等。虽然理论上有无限多种组合状态，但现实中工厂大部分时候运行在设定参数附近，现实的生产状态数目有限，这样生产3年就基本已经经历过90%可能发生的状态。数据模型本质是查表和插值，通过寻找与待预测点相似的状态点，根据相似历史状态预测新输出。虽然数据模型没有全局的推断能力，但已经可以应对有限状态了，在这种情形下，数据模型也许是一种最经济的做法。

很多具有工科背景的从业人员更相信确定性关系，对数据思维中的概率性关系常持怀疑态度。这种思维定式需要转变。首先，概率是一种关系描述方式，很多关系是天然随机的，例如，一个单词的音频中，音素的持续时间和停顿时长都是随机的，不但不同人会不同，同一个人两次说话都可能完全不同，但总体上有一定规律，这样的规律用概率模型描述比确定性模型或规则描述更合适。其实，概率可以近似看作研判的“置信度”，很多问题的研判本身也不是非黑即白的，存在模糊地带。最后，很多过程本质是确定的，但结果对模型参数、初始状态的敏感度太高（学术上说的混沌系统），对模型参数、初始状态的精确估算不可能或不经济，这时将模型简化为一个概率模型也许更实际。例如，抛硬币预测落地是正面、反面，在不存在空气扰动、地面平整且摩擦系数均匀的假设下，这个过程可以建模为一个常微分方程，结果完全由硬币的质量分布、抛出时的初始状态确定，但结果对参数和初始状态的敏感度太高，还不如通过多次观察，建立一个概率分布模型更直接。钱学森曾指出，从决定性的牛顿力学演化为非决定性的统计力学是一次科学进步；客观世界是决定性的，但由于人认识客观世界的局限性，会有暂时引入非决定性的必要。这是前进中的驿站，无可厚非，只是绝不能满足于非决定性而不求进一步澄清。

在信息化时代，数据作为一种信息沟通的媒介，通过数据透明和信息对称，提升企业的综合决策水平。在丰富的数据积累前提下，数据思维提供了另外一种认识世界的方式，用数据来发现问题、洞察规律，机器可以自动发现人工认知手段看不到的一些规律，将过去实证思维（观察试验、归纳总结）的小群体人工探索行为变成大规模机器自动挖掘的行为，加速与扩大了认知拓展能力。从行业应用的角度，数据思维把业务问题描述为数据分析需求，把数据分析规划为一个具有业务可行性的数据应用的能力。

在不同应用场景中，大数据发挥价值的途径不同。以工业设备为例，有些设备是标准化或参数化产品，有些设备是高度定制化的产品；有些设备工作相对独立，有些设备与其他系统强耦合。在不同情形下，设备大数据分析的价值途径不同，如表1-5所示。

表1-5　不同情形下设备大数据分析的价值途径

大数据的作用还体现在专家经验的精准化方面。工业中存在大量的操作经验和运行经验，有些经验比较模糊，只能靠语言和实践来掌握，有些经验可以用自然语言或专家规则表达出来，但仍存在歧义且不够定量，造成理解不一致。工业大数据有能力将部分经验明确化、定量化和标准化，形成结构化的模型，并可接受大量案例的检验，以提高经验的传承效率。虽然结构化模型可能会损失一部分经验信息，但结构化后，传递效率才能提高。在大数据时代，数据还有可能成为知识经验和技能的新载体，推动基于数据模型的知识共享和技能赋能，可提升生态组织开放合作与协同创新能力。

在微观层面，思维模式还体现在不同技术背景的人身上。工业大数据实践通常是操作技术（Operational Technology，OT）、数据技术（Data Technology，DT）、信息技术（Information Technology，IT）的3T融合。对同一个问题，OT专家与DT专家会从不同视角来审视，OT专家从机理角度，可以给出很多先决性研判或猜想；DT专家从数据统计的角度，可以给出数据上的现象表征。二者的不一致，可以让很多隐含或忽略的假设明确化。对OT专家来说，数据提供了一些额外的认识世界、验证猜想、分析问题的工具手段。

在工业数据分析项目中，机理模型与数据分析有3种结合方式（见图1-6）：① 有大量先验知识的课题，首先，明确OT的经验和假设，通过数据检验，形成有用的特征，接着，数据分析建模进一步定量化；② 数据驱动的课题，基于统计假设进行建模，在分析结果或现象解读时，融入OT专家的认知或经验，进一步提升模型结果；③ 数据驱动的课题，但存在前人的模型，这时做的是尽快用前人模型在新数据上运行，进行结果解读，然后再改进模型。另外，在这些计划中的执行模式外，通常存在很多“意料之外”的分支，在分析数据的过程中，存在临时发现的一些新课题，这些新课题发现的前提是对数据敏感性与领域认知的结合。

图1-6　机理模型与数据分析的3种结合方式

在数据分析项目中，欢迎专家直觉但更喜欢直觉背后的“研判依据”，尽管直觉或研判依据不一定完备或正确，但直觉触发了跨领域讨论的可能，“研判依据”给出了数据探索的思路，经过数据的检验和跨领域的推理讨论，不断追寻数据现象背后的要素和关系，形成相对完备和自洽的动力学关系图。

但数据思维自身并没有完全解决知识积累与传承的问题。在知识积累方面，从数据中自动学习的机器学习模型蕴含了知识，但通常为黑箱知识，缺乏演绎能力，与既有的形式化理论框架或领域专家的概念体系并不能无缝衔接，也就是说，还需要领域专家的解读、逻辑思考与验证工作，才能纳入既有知识框架体系。另外，物理过程的关键要素是否在大数据中有体现，在实际应用中也是需要校验的。在工业场景下，数据思维与专家知识的融合是一个待研究的课题。

1.3.4　数据技术视角

在工业领域，大数据量经常出现在时序数据（传感器）、仿真数据、多媒体数据（视频监控、图像检测等）等类型的数据上，而不同类型的数据通常需要不同的存储和管理技术。另外，很多工业数据质量要求与应用场景密切相关。同样一个传感器时序数据，在生产分析前，异常值和噪声需要滤除，但对于传感器健康分析，异常值反而是最重要的特征量。这造成数据质量或数据治理没有统一的方法，很难事前完备枚举，最好按需治理，通过单点突破快速迭代，实现数据资源化。这些都构成了工业大数据湖的特点。

原始数据是为满足特定业务应用目的而收集的，不一定完全满足工业大数据的建模需求，而工业物理对象的分析通常需要跨越多个数据集，这时需要一套建模和查询优化技术，以提高工业大数据访问的便捷性。

在现实中，工业大数据的维度在很多时候并不完备。数字孪生是追求的理想目标，但现实中因为测量技术、测量成本及存储成本等原因，很多状态没有监测，很多历史数据没有留存；因为认知和管理水平有限，有些关键要素没有纳入数据采集体系，关键结果缺乏标记。这些都需要依赖专业知识来弥补，如何有效捕获专家知识和经验，如何将这些专家知识与数据模型、机理模型融合，都是工业大数据分析的重要课题。

另外，大数据建模也不是要求所有数据完备后才能开始。数据收集是有成本的，通常只需要提供数据分析或业务应用所需的关键指标即可。例如，风力发电机组的风功率曲线的主要影响因素如图1-7所示，除风机故障、启停机、限功率及大偏航等典型工况外，空气密度（季节）、机组对风偏差、风速仪测量误差、叶片对零偏差、风剪切梯度（地形、遮挡物）、湍流强度及叶片气动性能等因素都会影响机组功率。但对于一般的风功率曲线分析，并不要求所有的要素，通常仅基于风力发电机组的状态监测数据进行，包括风况、工况和典型控制动作等信息，环境、设计与安装要素只有到细节问题才引入。很多工业问题是一个复杂系统问题，但只要数据能够反映关键要素，在工程上就可以尝试，避免“不可认知论”，这并不违背系统论的整体观。

图1-7　风功率曲线的主要影响要素

对于行业数据分析是否应该了解机理这个问题，一直存在争论。从应用推广的角度，不需要了解机理，这样分析技能更容易复制。但我们一直坚持在分析前，尽量整理出问题的系统动力学图（在当前认知水平下）。虽然很多要素（例如，瞬态空气动力学、安装瑕疵等）并不是大数据技术可以解决的，但至少知道了问题的全貌。另外，将隐性要素明确定义出来，也为持续探索创新奠定了基础，避免了低层次的重复徘徊。古代朴素唯物主义哲学思想虽然强调对自然界整体性、统一性的认识，却缺乏对这一整体各个细节的认识能力，因此对整体性和统一性的认识也是不完全的。系统思维既将相互联系的要素联合为一个统一体，同样又将系统对象分解为要素，没有深入的分析就没有良好的结果。

1.3.5　数字化与信息化的差别

过去的几十年内信息化在企业广泛开展，积累了大量有效的建设路径方法，很多方法（如敏捷开发、企业架构等）在数字化建设中仍然是有效的。但数字化与信息化在有些方面存在很大差别，对这些差异的认知偏差也引起了实践误区。

1.价值闭环

数字化集中在关键决策点，而不是整个业务流程中，数字化的价值闭环仍然依赖既有的业务流程或信息化系统，因此不要过度解读数字化的“价值闭环”。数字化从多领域、多流程数据关联的角度优化物理过程和业务决策。信息化以业务流程为中心，为业务活动提供必要的信息，并记录活动的状态和结果数据。在信息化系统中，很多复杂的决策过程由操作人员完成，信息化系统只需要为此提供足够的信息，以及留出足够的灵活接口即可。数字化恰恰与之互补，基于大量的数据提供智能决策，但仍需输出符合规范接口的决策建议，这样能被信息化系统消费。

2.创新主体

在工业数字化中，涉及大量的机理和工艺上下文信息，多维度分析通常需要跨技术领域，这与过去的信息化咨询和建设项目不同。信息化咨询与建设项目在不同企业间有很多共性，通常不涉及业务决策和创新，第三方咨询和技术服务是一种有效的社会分工机制，通过专业化的规模效益，可以有效提高项目建设水平。而在数字化建设中，第三方服务协同中信息传输损失和知识转移成本很高，大量基础的数据分析依靠企业内部领域专家解决是最有效率的，这样也利于促进自主创新能力。在数字化创新中，应以内部自下而上的创新为主，第三方服务主要集中在基础能力建设和个别专业难题方面。

3.建设路径

在企业自动化和信息化建设时，应特别注重整体规划和蓝图，例如，IT战略计划（IT Strategy Planning，ITSP）或企业架构（Enterprise Architect，EA），这样才能保证前后建设信息系统的一致性与兼容性。

在数字化建设中，整体规划仍然必要，但迭代创新速度更重要。数字化的不确定性远比信息化大，很大程度依赖数据量和数据质量，数据中是否存在可靠的规律，只有挖掘后才能得知，同样的分析课题在不同数据集上的效果也不同。工业不缺经验与知识，缺少的是系统化、强壮的可执行的模型。工业分析模型瓶颈很多时候不在于算力，而在于模型的强壮性。数据的结构和质量多样性是阻碍大规模应用的一个要素。因此，数字化建设走的是“顶层定业务场景，底层迭代创新”的迭代式路径。

4.数据资源

数据资源不足往往是数字化建设最大的障碍。数据分析模型（特别是数据挖掘模型）的前提是数据维度的完备性和可信度、历史相似性、状态遍历性和时空连续性。这样的前提假设在很多时候不一定成立。

很多数据分析依赖的数据源往往是信息化、自动化系统建设的成果，这些系统建设时不可能完美考虑数据分析模型的需求。在数据分析时，会遇到很多数据问题。例如，多维度数据的整体完备度，只有在数据关联后才能得知，这对数据供给和分析模型研发效率带来了较大挑战。大量历史数据没有标记，再加上工业系统的异常样本本来就少，异常样本的数量和覆盖度成为很多设备异常预警分析课题的主要瓶颈。

1.3.6　OT、DT、IT的融合与分工

在1.3.3节我们已经讨论了OT、DT、IT思维模式上的差别与互补关系。一个常见的讨论是工业大数据到底应该以哪类人为主。这个问题其实没有简单的答案，原因在于① 不同的待解决问题需要的核心技能不同；② 工业企业人的角色并没有严格区分，很多领域专家除OT角色外，还可能有一定的DT技能。因此，这里讨论三者协作效率的决定因素和手段。

首先，在工程化思路方面，OT、DT、IT人是类似的，他们的差异更多体现在技能和信息禀赋方面。在行业数据分析中，DT人通常也会尝试机理推演的路线，通过访谈或先验知识形成一些探索的假想，通过数据探索，获得更深层次的理解，以便与OT人高效沟通协同。

OT、DT、IT人不同的技能层次如图1-8所示，从下到上，分别给出OT、DT、IT的基础能力和深层次的能力。基础技能的跨领域学习或转移成本较小，而深层次技能的转移成本很高。因此，在工业大数据实施中，一方面需要建立共性的基础能力，避免过度分工带来不必要的沟通成本；另外，要通过技术手段或机制，在保持专业化分工的同时，以形式化或半形式化模式提高跨领域的沟通效率。

图1-8　OT、DT、IT人不同的技能层次

OT人有相对系统的领域认知体系，有良好的解读能力，有一定的研判经验。主要包括：① 控制策略、量测方法与数据解析方法、工况等现场实际信息的掌握，这些基础信息比基础原理具象，通常没有明确的数据记录提高分析的系统性和科学性；② 对数据异常和结果的业务研判力，以避免对大数据量的强依赖；③ 对实际案例的解读能力，相对于机器学习更简洁与体系化；④ 有探索方向，不完全依赖于数据，降低搜索空间，快速定位。很多OT也有一定的数据分析能力，因此，对一些算法技能要求不高的分析课题，OT人做更有效率，但也存在很多潜在提升点，OT人的数据分析手段与潜在提升点如表1-6所示。

对于有类似案例的分析课题，通常的方式是在既有案例上用新的数据进行测试和修改，通过复用来尽快形成解决当前问题的模型或数据应用。对于专家规则型的分析课题，专家规则可以被明确表达，通常方式是DT负责形式化和大规模验证，通过具体的反例辅助OT人不断精化规则，消除专家规则中的歧义性和不完备性。

表1-6　OT人的数据分析手段与潜在提升点

对领域背景比较深的分析课题，一种常见的协同模式是：OT负责解决个例化（具象化）的逻辑或思路，解决0到1的逻辑问题；DT解决逻辑的普适性，解决1到 N 的逻辑问题，IT解决自动化和物理部署问题。在这种情形下，OT需要易用的可视化探索与记录环境，以便将业务逻辑梳理得更清楚；DT需要灵活高效的模型研发与验证环境，负责形式化和大规模验证，负责算法或模型的性能与效率，尽量完成数据应用的初步设计与开发，平台后台解决数据访问、并行化计算和低代码开发问题。IT负责个性化的数据平台、应用个性化开发和日常运维。

1.3 工业大数据的认知辨析

1.3.1 经济与制度视角

1.3.2 数据资产视角

1.3.3 思维模式视角

1.3.4 数据技术视角

1.3.5 数字化与信息化的差别