首先,团队会盘点并评估所拥有的数据。团队成员需要确认所需数据是否齐全,之后优先将数据用于业务和组织需求。接着他们必须收集和处理数据。
尽管涉及程度因公司而异,但与数据收集及分析相关的工作基本上涉及了公司的所有人。例如,业务分析师会存在于金融、会计或者产品团队,每天使用平台提供的数据进行分析。还有数据和平台工程师也许会搭建可重复使用的用于提取、清洗和处理数据的工具,尽管他们可能不涉及任何的业务决策。(在小公司中,他们也许全是软件工程师或产品工程师。)有些地方会有正式的数据工程师的角色。还有一些数据科学家、产品分析师和用户体验(U X)研究员会使用这个阶段产出的数据。
对于网店运营商YarnIt,绝大多数的组织成员都参与了这一步骤,其中包括业务与产品团队这些对要优化的业务领域最了解的团队。举个例子,他们可以决定是小幅增加每单销售利润对企业更重要,还是稍微增加订单频率更有意义。他们能够指出高、低利润产品的问题与机会,并且将客户分类为高利润客户和低利润客户。产品工程师与机器学习工程师也会参与其中,考虑如何处理所有的数据。站点可靠性工程师会对整个管道提出建议和决策,使其更加可靠、易于监控和管理。
为机器学习管理数据是一个非常复杂的话题,我们会在第2章专门讨论数据管理原则,训练数据稍后将在第4章和第10章中进行讨论。目前,假设数据收集和处理系统的正确设计和管理是所有好的机器学习系统的核心要素。一旦数据被存储在合适的位置并转换为合适的格式,我们就将开始训练模型。