在监督式机器学习中, 训练标签 提供了“正确的答案”,向模型展示了对一个给定示例它应该预测什么。标签是向模型展示其目标的关键指导,通常定义为一个数值分数。这里有一些例子:
● 垃圾邮件过滤模型中,“垃圾邮件”为 1 分,“非垃圾邮件”为 0 分。
● 西雅图某天的日降雨量,单位为毫米(m m)。
● 一组可能完成给定句子的单词的标签,如果它是完成给定句子的实际单词,则为 1 ,如果是任何其他单词,则为 0 。
● 一组给定图像中每一类物体的标签,如果该类物体明显地出现在图像中,则为 1 ,如果没有,则为 0 。
● 显示在湿实验室实验中某一抗体蛋白与某一病毒结合的强度的数值分数。
因为标签对模型训练非常重要,所以很容易看到,标签的问题可能是许多下游模型问题的根源。让我们看看以下几个问题。
标签噪声
在统计学语言中, 噪声 这个词是 错误 的同义词。如果我们提供的标签受某种原因影响而不正确,这些错误就会传播到模型行为中。在某些情况下,如果错误在时间维度上是平衡的,那么随机噪声就是可以容忍的,尽管测量和评估它仍然很重要。发生在数据的某些部分的错误会更具破坏性,例如,如果一个人类标签员一直把青蛙错误地识别为蟾蜍的水生形象图像,或者一组特定的用户一直被某种类型的垃圾电子邮件欺骗,或者在实验中发生污染,使一组特定的抗体不能与一类特定的病毒结合。
因此,定期检查和监控标签的质量并解决所有问题是至关重要的。在使用专家提供训练标签的系统中,这往往意味着要对任务规范的文件进行严格的审查,并为人本身提供详细的培训。
错误的标签对象
机器学习训练方法在学习预测我们提供的标签方面往往非常有效——有时效果会十分优秀,以至于它们发现了我们希望的标签含义和它们实际代表的内容之间的差异。例如,如果我们的目标是让 yarnit.ai 网站的客户长期满意,我们很容易希望“购买”标签与满意的用户会话相关。这可能会产生一个过度关注购买的模型,也许随着时间的推移,还将学会推广那些看起来很优惠但实际上质量令人失望的产品。另一个例子,考虑使用用户点击作为用户对新闻文章的满意度的信号的问题,这可能会导致模型突出肮脏的“标题党”标题,甚至过滤泡沫效应,在这种情况下,用户不会看到与他们的预想不一致的新闻文章。
欺诈或恶意的反馈
许多系统依靠用户的信号或对人类行为的观察来提供训练标签。例如,一些垃圾电子邮件系统允许用户将邮件标记为”垃圾邮件”或”非垃圾邮件”。很容易想象,一个有动机的垃圾邮件发送者可能试图愚弄这样的系统,向他们自己控制的账户发送许多垃圾邮件,并试图将它们标记为”非垃圾邮件”,以试图破坏整个模型。同样容易想象的是,一个试图预测某个产品在用户评论中获得多少颗星的模型,可能会受到那些试图抬高自己产品或贬低竞争对手产品的不良行为者的潜在影响。在这种情况下,缜密的安全措施和对可疑趋势的监测是系统维持长期健康的关键部分。
除了开发一个完整且具有代表性的数据集,或者正确标注样本的问题,我们在模型训练过程中还会遇到对模型的威胁。第4章将更详细地讨论标签和标签系统。