机器学习数据集的版本管理在很多方面类似于传统的数据或源代码的版本管理,用于标记数据的状态,以便我们可以在未来的实验中应用数据集的特定版本。当有新的数据可供重新训练时,或当我们计划实施不同的数据准备或特征工程技术时,
版本管理
变得非常重要。在真实的生产环境中,机器学习专家要处理大量的数据集、文件和指标来进行日常操作。因为实验是在多次迭代中进行的,因此需要对不同版本进行跟踪和管理。版本控制是管理众多数据集、机器学习模型和文件的一个非常好的方法,此外,还可以保存多个迭代的记录,即何时改变、为何改变以及改变了什么
。