购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

4.1 从以模型为中心到以数据为中心

机器学习的进步是模型带来的还是数据带来的,这可能是一个世纪辩题。著名的吴恩达博士对此的看法是:一个机器学习团队80%的工作应该放在数据操作上,确保数据高质量是最重要的工作,现在每个人都知道应该这样做,但之前没人在乎,如果更强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。本节将介绍这两种模式的区别,以及要以数据为中心的原因。

4.1.1 以模型为中心的时代

在以模型为中心的人工智能时代,全球所有人工智能研究实验室面临的挑战是,面对给定的基准数据集(例如COCO数据集),如何构建性能更好的模型。这被称为以模型为中心的方法,即保持数据固定并迭代模型及其参数以提高模型性能,如图4-1所示。

图4-1 以模型为中心的方法

当然,对于算法工程师来说,他们能够在代码托管平台(如GitHub)上轻松访问更新、更好、更强的模型并能够在此基础上创建项目、训练模型。对于很多机器学习算法工程师来说,他们感觉在努力学习机器学习理论之后,终于可以应用并尝试创建一些模型,真是太棒了。

以模型为中心的特殊性在于,数据收集是一次性任务,在项目开始时执行,目标是随着时间推移增加数据,但对数据质量没有要求。

模型的部署通常是小规模的:只有一台服务器或设备就可以处理所有负载,监控更不是一件值得关注的事情。但是,最大的障碍是一切都是手动完成的,包括数据清理、模型训练、模型验证、模型部署、特征存储、特征共享等。

很明显,这是一个需要解决的问题。然而当时,大型机器学习平台等解决方案要么不存在,要么过于复杂,无法适用于大多数组织。

4.1.2 以数据为中心的时代

时代变了,该领域的一些有影响力的人,比如吴恩达博士,开始提出一些新的范式来处理机器学习系统,那便是关注数据。当系统运行不正常时,许多团队会本能地尝试改进代码,但是对于许多实际应用而言,集中精力来提高数据质量会更有效。

许多人经常混淆以数据为中心的方法和数据驱动方法。数据驱动方法是从数据中收集、分析和提取见解。另外,以数据为中心的方法侧重于使用数据来定义应该首先创建的内容将数据视为组织、企业或项目核心的重要资产,并以此为基础进行决策、创新和优化。以数据为中心的方法和数据驱动方法的区别如图4-2所示。

图4-2 以数据为中心的方法和数据驱动方法的区别

● 以数据为中心的方法中数据是主要和永久资产,而程序会发生变化。

● 数据驱动是一种基于数据的方法,用于为企业或组织提供决策支持、业务洞察和持续改进。这意味着通过提取大量数据来创建技术、技能和环境,即通过利用大量数据及相应的技术、技能和环境来实现企业的数据驱动决策和创新。

以模型为中心的机器学习和以数据为中心的机器学习的区别如表4-1所示。

表4-1 以模型为中心的机器学习和以数据为中心的机器学习的区别

以数据为中心的方法是系统地更改或增强数据集以提高模型性能。这意味着与以模型为中心的方法相反:模型是固定的,只需要改进数据。增强数据集可以有不同的含义,包括增强标签的一致性,关注时序数据的穿越问题,对训练数据进行精细采样,以及明智地选择数据批次,并不总是扩充数据集。

以数据为中心的机器学习系统意味着自动化模型生命周期中的所有流程,模型评估贯穿模型生命周期中的所有流程,如图4-3所示。

图4-3 以数据为中心的机器学习系统 iRc9syQNyne4Ku8zWbbkLaNDnLDq+0Oqx2BW33vt98OsJ/3fVCsSoxKrIe2Q3/hp

点击中间区域
呼出菜单
上一章
目录
下一章
×