第1章
欢迎来到Transformer的世界

2017年，Google的研究人员发表了一篇论文，提出了一种用于序列建模的新型神经网络架构 ^[1] 。这种架构称为Transformer，在机器翻译任务上，该架构在翻译质量和训练成本方面都优于循环神经网络（RNN）。

同时，一种名为ULMFiT的高效迁移学习方法表明，在非常庞大且多样化的语料库上训练长短期记忆（LSTM）网络可以产生最先进的文本分类器，并且只需要很少的标注数据 ^[2] 。

这些研究催生了如今两个最著名的Transformer模型类别：生成预训练Transformer（Generative Pretrained Transformer，GPT） ^[3] 和基于Transformer的双向编码器表示（Bidirectional Encoder Representations from Transformers，BERT） ^[4] 。通过将Transformer架构与无监督学习相结合，不需要从头开始训练这些模型即可完成特定任务，并打破了几乎所有NLP基准。自GPT和BERT发布以来，涌现了很多Transformer模型，具体模型和时间线如图1-1所示。

要想更上一层楼，我们不仅需要知其然，还需要知其所以然。因此我们需要先解释一下如下概念：

图1-1：Transformer大事记

●编码器-解码器框架

●注意力机制

●迁移学习

本章我们将介绍通用于所有Transformer模型的核心概念，讲述它们擅长的任务，最后介绍由对应工具和库组成的Hugging Face生态系统。

我们先从编码器-解码器框架和Transformer兴起之前的架构开始。

第1章 欢迎来到Transformer的世界

第1章
欢迎来到Transformer的世界