大多数团队会依靠他们所使用的平台来提供他们需要的大部分功能,其中包括数据存储和处理平台。YarnIt不是一个大型组织,但我们仍然会让负责业务管理、数据工程和运营的员工参与进来,帮助我们理解并满足此处的要求。我们很幸运地拥有站点可靠性工程师,他们将解决与数据的存储和处理有关的可靠性问题。
从根本上来说,数据管理阶段是关于将我们所拥有的数据转化为适合该过程之后阶段的格式和存储模式的。在这个过程中,我们也可能会应用一系列特定于模型(或至少是特定于模型领域)的数据转换,以便为训练准备数据。我们对数据的下一步操作是将其用于训练机器学习模型,对某些敏感的数据内容进行匿名化处理,并在我们不再需要或被要求时删除这些数据。为了准备对数据进行上述操作,我们将继续从业务领导那里获得他们的意见输入,以回答关于数据的主要使用场景的问题,以及未来可能的探索领域。
与本书的大部分章节一样,设计一个能够运行且可靠的机器学习系统,深入了解机器学习并不是必需的,有时甚至是不值得的。然而,对模型训练的基本理解确实直接告知我们在准备数据时要做什么。现代机器学习环境中的数据管理在将数据送入模型训练管道之前包括多个阶段,如图2-2所示:
● 创建
● 提取
● 处理(包括验证、清洗和丰富)
● 后期处理(包括数据管理、存储和分析)
图2-2:机器学习数据管理阶段