在过去的五年中,笔者有幸深入制造业数字化转型一线,在与工业龙头企业深入交流和合作的过程中,目睹了国内产业数据基础的快速发展,也看到了数据思维模式的转变和对数据技术的理性认知。回想早年,为了验证数据分析技术,只能跨越地域、克服语言和文化的差异,到境外实施项目,不禁感慨万千。在过去的二十年中,数据平台技术、数据分析算法、计算资源技术和产业需求相互促进而蓬勃发展,数据思维成为继逻辑思维、实证思维和构造思维之后的第四大思维范式。七十多年以来,大家一直在探索如何让计算机不用显式编程就能获得一定能力的人工智能技术之路,经历了符号演算、逻辑推理、自动机模型、进化计算、模糊数学、专家系统与知识工程、神经网络(特别是自动梯度计算与反演算法)、机器学习、深度学习等不同模式和阶段。得益于计算机硬件、产业数据的发展,机器学习和深度学习在行业应用已经取得了重大成功。但人工智能探索之路远未结束,科学家还在继续研究基于认知和进化等特点的强人工智能技术。另外,对于复杂系统的刻画与建模方法,也期待一些形式化方法的突破。古人有云,物含妙理总堪寻。
在过去五年的工程实践中,不时有工业界朋友提出,期望有本书能从算法应用的角度具象讲解工业数据分析课题。但我一直犹豫,一来市面上已经存在很多机器学习算法经典专著,也有很多优秀的算法工具图书,没有必要做重复工作;二来我与团队当时认为行业数据分析项目不落地的主要原因是分析课题定义不规范和数据不完备,而不是算法过程。因此,我们优先编写了《工业大数据分析实践》一书,尝试规范不同类型工业分析课题的定义过程。然而在该书出版后的几个月内,很多业界朋友再次表达类似的诉求,让我也逐渐意识到这种需求主要来自于工科背景人看问题的角度与统计思维不同,结构方程的惯性让大家下意识抵触非参数模型、隐性结构模型等计算模型。
本书尝试用工科人熟悉的思维模式去解释常见的机器学习算法。很多算法知识展开都可以单独成书,本书无意做重复工作,因此,本书中刻意避免了详尽的理论推导过程,仅讨论必要的理论思路和常见的认知障碍;在存在既有工具或图书的地方,直接给出参考文献,帮助读者快速建立起系统的认知框架;简化算法包使用过程的介绍,侧重算法背后的工作机制和超参数的影响分析,以及算法应用到工业场景中的套路。由此,本书的风格更像数据分析算法的辅助教材,侧重培养行业数据分析实操中的直觉研判力。
本书共10章,可划分为四个部分。第一部分(即第1章)是数据分析概览,目的是建立起数据分析算法的概念框架,并给出学习路线;第2~5章是第二部分,侧重在通用数据分析算法,包括数据预处理、机器学习、时序挖掘算法和最优化等其他算法;第三部分包括第6~8章,讨论了工业分析的算法思路,覆盖了生产质量分析(PQM)、生产效率优化(PEM)等典型分析课题的算法组合套路;第四部分侧重在分析工程方法,第9章讨论了工业专家知识沉淀方法,第10章讨论了数据分析的软件工程。
基于PHM(Prognostics and Health Management,故障预测与健康管理)系统的工业设备/系统故障诊断是工业大数据分析中的一个重要领域,存在着丰富有效的研究成果与行业应用。笔者与团队对近20年间的主要学术期刊与会议论文进行了调研,分为工业设备故障诊断、工业系统故障诊断、健康评估三大主题,每个主题下按照机器学习算法进行了分类总结,覆盖了行业问题、技术挑战、方法路线和应用效果等内容,形成了近100页的文献综述文档。原本计划将其单独成章,考虑到内容的特点、读者检索论文的便捷性及本书篇幅限制等因素,笔者决定将这些内容以电子文档资源的形式分享出来,读者可关注本书封底的“E视界”公众号,发送“9787111709619”获取该文档。
在本书的编写过程中,实习生李洋、高颂提供了很大的帮助,整理了3.3节、3.11~3.14节和第5章的初稿内容,并完成了工业设备/系统故障诊断电子文档部分插图的翻译工作,6.3节的内容来源于李洋实习期间的合作研究。9.7节部分内容来自马国,图6-18来自曾聿赟,这里一并表示感谢。感谢清华大学数据治理研究中心孙雪老师和机械工业出版社吕潇老师在选题立意上的研讨与建议,你们的热情给了我写下去的信心。特别感谢机械工业出版社的编辑和各位审阅老师在底稿的编审过程中大量富有成效的工作,致敬在本书出版过程中的全体工作人员。
本书权当对于工业大数据分析算法的一些初步探讨。鉴于精力和篇幅限制,仅仅覆盖有限的典型算法,内容存在欠缺。再加上笔者才疏学浅,不少提法和表达尚欠推敲,书中难免有疏漏、错误之处,还望广大读者不吝赐教,日后有机会加以勘正。
田春华
2021年12月于北京