MLOps工程实践：工具、技术与企业级应用最新章节_陈雨强著

1.1 人工智能的趋势和现状

近年来，国内外的人工智能研究和应用出现如下两个明显的趋势。

● 人工智能正在企业内加速落地，越来越多地发挥价值。

● 人工智能的应用正从以模型为中心（Model-centric）向以数据为中心（Data-centric）转变。

1.1.1 趋势1：人工智能在企业中加速落地，彰显更多业务价值

熟悉人工智能技术发展历史的读者都知道，人工智能的技术发展经历了数次高潮和低谷。自从2012年AlexNet在ImageNet大赛上夺魁之后，人工智能技术的研究和应用进入了新的高潮。

机器学习不仅在学术界取得很好的进展——AlexNet、VGGNet、GoogleNet、ResNet、Transformer的GPT-2和GPT-3等算法模型层出不穷，在工业界的应用也飞速增长。人工智能在企业内正在加速落地，一方面是落地场景类型增多，不仅在传统的感知类场景中有应用，包括图像识别、语音识别、自然语言处理，还在企业经营决策类场景中有应用，包括风控、推荐、预测等；另一方面是人工智能在企业内部落地的绝对数量上呈指数级增长。

（1）传统的感知类场景

人工智能在企业内部感知类场景的落地一直以来是关注的重点。例如图像识别技术在企业的客户资料审核、安全监控等方面得到了广泛应用，大大提升了业务效率；语音识别技术在输入法、智能个人管家等产品中得到了广泛应用，帮助人类更好地进行语音输入，提升了用户进行数字活动的效率；自然语言处理技术在搜索、知识生产等领域得到了广泛应用。

（2）企业经营决策类场景

我们欣喜地看到，大量企业把人工智能技术应用到经营决策类场景，让计算机从海量数据中发现规律，辅助人类做出高效、正确的业务决策，从而提高企业的经营效率和核心竞争力，创造经济价值。例如人工智能技术应用在金融行业的风控系统中，帮助企业在信用卡开户、贷款审核和发放、资金转账、在线消费等场景中识别潜在风险，减少资金损失和商誉损失；人工智能技术应用在消费品行业的电商推荐系统中，通过给消费者推荐更感兴趣的商品来促进消费，提升商品交易总额；人工智能技术应用在物流行业的物流预测上，通过准确预测商品销量帮助企业进行更精准的备货和铺货，提高销售额的同时减少备货过多而导致的浪费。

以上这些都是企业内部应用人工智能技术的典型例子。相当多的企业成功应用案例证明，人工智能技术在这些场景的落地，大大提升了企业的决策效率，降低了成本，提升了企业的核心竞争力。

（3）企业内部落地数量增长

人工智能在企业内部应用，除了落地类型丰富之外，在落地的绝对数量上也增长很快，尤其是大中型科技企业落地机器学习模型的数量呈指数级增长。以国内某著名大型金融企业为例，它同时在线上生产环境中运行机器学习模型的数量达到上千级别。其中，某些风控模型能帮助企业每年在多个场景下减少上亿元的业务损失，某些推荐模型能帮助企业每年在多个场景下增加十亿元级别的营收。这些模型在企业的各个业务场景下正在发挥着越来越大的作用，带来更高的经济价值。

相信随着我国企业数字化、智能化转型的深入和全面推进，越来越多的企业会发现人工智能技术对于业务的价值，从而推动人工智能技术在更多行业、更多场景的落地。

1.1.2 趋势2：人工智能应用从以模型为中心向以数据为中心转变

目前，人工智能技术在企业内部正在加速落地，但是我们在人工智能应用的研究、模型设计和算法性能的提升方面出现了瓶颈。人工智能应用正在从传统的以模型为中心向以数据为中心转变。

2021年，曾任斯坦福大学人工智能实验室主任、“谷歌大脑”负责人和百度首席科学家的著名学者Andrew Ng（吴恩达）教授在美国通过他创办的DeepLearning.ai发表题为“MLOps：From Model-centric to Data-centric AI”的线上演讲，在人工智能行业引起了很大反响。在演讲中，他认为当前在工业界落地人工智能的现状是通过模型调优带来效果提升，这远远比不上通过数据质量调优带来的效果提升，所以带来的人工智能落地趋势是从以模型为中心向以数据为中心转变。具体来说，采用以模型为中心方法就是保持数据不变，不断调整模型算法，比如使用更深、更复杂的网络层，更多的网络节点，更多的超参数等，对最终结果的改善空间很小；而采用以数据为中心方法就是保持模型算法不变，把主要精力花在提升数据质量上，比如改进数据标签、提高数据标注质量、保持数据在训练和预测等多个阶段的一致性等，相对来说容易取得比较好的结果。对于同一个人工智能问题，改进模型还是改进数据质量，效果提升的差异很大。

他在演讲中列举了几个实际的工业界例子，分别通过以模型为中心和以数据为中心方法进行准确率提升，结果如表1-1所示。

表1-1 通过以模型为中心和以数据为中心方法提升的效果对比

如表1-1所示，在3个人工智能任务中，基线的准确率分别是76.2%、75.68%、85.05%。采用以模型为中心方法（即进行模型调参数等操作之后），最终结果是模型准确率提升幅度非常小，三个任务结果分别为+0、+0.04%、+0。但是采用以数据为中心方法对数据进行优化（包括引入更多数据、提升数据质量等），最终结果是模型准确率提升幅度大得多，三个任务结果分别为+16.9%、+3.06%、+0.4%。对比一下，采用以数据为中心方法在结果准确率提升上完胜采用以模型为中心方法。

之所以会出现这种结果，吴恩达教授给出的分析是数据远比想象中更重要。大家都知道“Data is Food for AI”，用一个简单的公式来表示：

Better AI=Data×（80%）+Code×20%

一个真实的人工智能工作场景中，分析师大概有80%的时间在处理数据，20%的时间用来调整算法。这个过程就像烹饪，八成时间用来准备食材，对各种食材进行选择和处理，而真正的烹调时间很短。

为了顺应以数据为中心的发展趋势，吴恩达教授提出MLOps（Machine Learning Engineering for Production）。他认为，MLOps是帮助机器学习进行大规模企业应用的一系列工程化方法和实践，它最重要的任务是在机器学习应用研发生命周期的各个阶段（包括数据准备、模型训练、模型上线、模型监控和重新训练等）始终保持高质量的数据供给。

为了在业内对齐以数据为中心的认知并推广MLOps，他还联合业内专家在所负责的Cousera.ai培训平台上推出“Machine Learning Engineering for Production（MLOps）”专项课程。该课程内容包括如何构建和维护在生产环境中持续运行的机器学习系统，如何处理不断变化的数据，如何让模型以较低成本不间断地运行并达到最高性能等。

以上是以吴恩达教授为代表的人工智能顶尖科学家对于人工智能在企业内部落地趋势的判断：对于模型效果的提升，模型算法的迭代不如数据质量提升和数量增加。

接下来，我们来看一下当前企业内部人工智能落地现状。

1.1.3 现状：人工智能落地成功率低，成本高

首先，从业内统计数据来看，目前人工智能技术在企业内部落地成功率非常低。2019年5月，Dimensional Research发现，78%的人工智能项目最终没有上线；2019年6月，VentureBeat发现，87%的人工智能项目没有部署到生产环境；2020年，Monte Carlo Data预估人工智能项目的死亡率在90%左右。也就是说，虽然AI科学家、AI工程师一起做了大量工作（包括数据准备、数据探索、模型训练等），但是大部分机器学习模型最终没有上线，即没有产生业务价值。

其次，从人工智能实际从业者（包括AI科学家和AI工程师）视角来看，在企业内部落地人工智能项目的周期往往比预期的要长很多。通常，一个机器学习模型落地时间是机器学习模型调优时间的数倍。一个AI科学家在一次业内交流会上感叹，他只花了3个星期来开发模型，但是过去了11个月，该模型仍然没有被部署到生产环境。事实上，这不是个例，在业内是普遍现象。

接下来，我们分析人工智能落地现状背后的具体问题、挑战以及应对措施。