购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.6 总结

这是对思考机器学习的数据系统的一个大体上的介绍(尽管你可能并不这样觉得)。在这一点上,你也许不愿意为数据提取和处理构建一个完整的系统,但这样一个系统的基本要素应该是明确的。更重要的是,你应该能够确定最大的风险和陷阱在哪里。为了开始在这方面取得有效的进展,大多数读者会希望将他们所做的工作分为以下几个方面:

政策和治理

许多组织从产品组或工程组开始实施机器学习的工作。然而,正如我们所强调的,从长远来看,拥有一套从上到下一致的政策和治理方法是至关重要的。还没有开始这项工作的组织应该立即行动起来。第6章是一个很好的开始。

为了在这个领域产生最大的影响,你应该确定可能存在的最大的问题或差距,并优先解决它们。考虑到我们对错误使用机器学习的风险和可用工具的理解现状,完美是不可能的。但是,减少发生严重的违规事件绝对是可行的,而且是一个合理的目标。

数据科学和软件基础设施

如果我们已经开始使用机器学习,很可能我们的数据科学团队已经在组织的各个地方建立了定制的数据转换管道。清洗、归一化和转换数据是进行机器学习所需的正常操作。为了避免未来的技术性机器学习债务,应该尽快开始构建软件基础设施,以集中化这些转换管道 [7]

那些已经解决了自己的问题的团队可能会抵制这种集中化。然而,通过将数据转换作为一项服务来运营,有时可以吸引所有的新用户,甚至吸引一些现有用户转移到集中式系统。随着时间的推移,我们应该尝试将数据转换整合到一个单一的、管理良好的地方。

基础设施

显然我们需要大量的用于数据存储和处理的基础设施来管理好机器学习数据。这里最大的元素是特征存储系统(通常被简单地称为 特征存储 )。我们将在第4章详细讨论特征存储方面的话题。

[1] AOL搜索记录的案例是此类事故中最著名的,参见Michael Barbaro和Tom Zeller Jr.撰写的“A Face Is Exposed for AOL Searcher No.4417749”( https://oreil.ly/WALx5 )。这一事件在维基百科的“AOL search log release”页面也有解释( https://oreil.ly/cBpOve )。

[2] 对于数据集,模型卡的一种补充方法称为数据卡,参见数据卡使用手册( https://oreil.ly/aaSMr )。

[3] 更多细节可参见Alexander J. Ratner等人的“Learning to Compose Domain-Specific Transformations for Data Augmentation”( https://oreil.ly/uxLdr )。

[4] 数据科学家、数据分析师、研究科学家和应用科学家使用各种数据可视化工具和技术,包括信息图、热图、体温记录图、面积图和直方图。欲了解更多的内容,请参考维基百科的“Data and information visualization”页面( https://oreil.ly/DL2B2 )。

[5] 可以参考Databricks的一篇总结“Best Practices:GDPR and CCPA Compliance Using Delta Lake”,特别是关于假名的部分( https://oreil.ly/I5hPt )。

[6] 参见由Brendan McMahan和Daniel Ramage编写的“Federated Learning: Collaborative Machine Learning Without Centralized Training Data”( https://oreil.ly/ptj9h ),以了解该主题在2017年的总体概况。当然,自那时以来,联邦学习一直在不断发展。

[7] 机器学习系统中的技术债务往往与我们在其他软件系统中看到的十分不同。一篇详细解释这个问题的论文是D. Sculley(本书作者之一)等人撰写的“Hidden Technical Debt in Machine Learning Systems”( https://oreil.ly/3SV7Q )。 2rhFCoCIqqfHzjlS0pTqTreZJlknOz1sjVEPC53PFfyG8QC7vym3gkNzYvBoVRoc

点击中间区域
呼出菜单
上一章
目录
下一章
×