本章我们已经看到可以用Transformer模型处理的各种NLP任务。只看媒体头条新闻,有时会觉得Transformer模型能力无限。然而,尽管Transformer模型很有用,但远未能包打天下。以下是我们将在本书探讨的一些与之相关的挑战:
语言
NLP研究以英语为主。有一些支持其他语言的模型,但很难找到稀有或资源少的语言的预训练模型。我们将在第4章探讨多语言Transformer及其执行零样本学习跨语言迁移的能力。
数据可用性
尽管我们可以通过迁移学习来显著减少模型所需的标注训练数据量,但与人类执行任务所需的量相比,依然差很多。我们将在第9章探讨如何处理几乎没有标注数据可用的场景。
处理长文本
自注意力在段落长度的文本上效果非常好,但是在处理整个文档这样长度的文本时,将变得非常昂贵。第11章将讨论缓解这种情况的方法。
不透明度
与其他深度学习模型一样,Transformer在很大程度上是不透明的。人们很难或不可能解开模型做出某种预测的“原因”。当需要通过这些模型来做出关键决策时,这是一个特别艰巨的挑战。我们将在第2章和第4章探讨一些探测Transformer模型误差的方法。
偏见
Transformer模型主要基于互联网的文本数据进行预训练。这会将数据中存在的所有偏见印入模型中。确保我们没有把种族主义、性别歧视或更糟的偏见引入模型是一项具有挑战性的任务。我们将在第10章更详细地讨论相关问题。
尽管这些挑战令人生畏,但是其中许多挑战都是可以克服的。除了以上提到的章节外,我们将在后面的几乎每一章中触及它们。