机器学习永远不会真正完成。无论是技术上还是结构上,它也不会在任何一个地方开始或者停止。机器学习模型的开发人员通常希望他们的工作十分简单,只需要收集一次数据,训练一次模型。但是,这种情况很少发生。
一个简单的思想实验便可以帮助我们理解其中的原因。假设有一个机器学习模型,我们正在评估这个模型是否足够好(参考一个确定的阈值)。如果它没有达到我们的要求,那么数据科学家、商业分析师以及机器学习工程师通常会针对如何理解模型的故障并加以改进来进行协作。正如你可能想到的,这将涉及大量的工作:可能会修改现有的训练管道以改进一些功能,还可能会添加或删除一些数据,以及重构模型以迭代已经完成的工作。
相反,如果模型效果很好,整个组织都会为之兴奋。自然的想法是一次不成熟的尝试便取得了如此大的进步,那么想象一下,如果我们更加努力,使模型更加复杂的话,将会取得多么好的成果。你猜对了,这通常涉及修改现有训练管道、更改特征、添加或删除数据,甚至可能重构模型。无论哪种方式,无论相同的工作我们做了多少,我们做的第一个模型都只是下一步工作的起点。
让我们一起看一下机器学习的生命周期,或者说机器学习循环的细节(如图1-1所示)。
由于机器学习都是由数据开始,所以让我们从图的左侧开始更详细地了解这个循环。我们将详细了解每个阶段,并且在这个购物网站的背景下,解释每个阶段有哪些人参与以及他们的主要职责是什么。
图1-1:机器学习生命周期