BERT基础教程：Transformer大模型实战最新章节_苏达哈尔桑·拉维昌迪兰著

循环神经网络和长短期记忆网络已经广泛应用于时序任务，比如文本预测、机器翻译、文章生成等。然而，它们面临的一大问题就是如何记录长期依赖。

为了解决这个问题，一个名为Transformer的新架构应运而生。从那以后，Transformer被应用到多个自然语言处理方向，到目前为止还未有新的架构能够将其替代。可以说，它的出现是自然语言处理领域的突破，并为新的革命性架构（BERT、GPT-3、T5等）打下了理论基础。

Transformer完全依赖于注意力机制，并摒弃了循环。它使用的是一种特殊的注意力机制，称为 自注意力 （self-attention）。我们将在后面介绍具体细节。

让我们通过一个文本翻译实例来了解Transformer是如何工作的。Transformer由编码器和解码器两部分组成。首先，向编码器输入一句话（原句），让其学习这句话的特征 1 ，再将特征作为输入传输给解码器。最后，此特征会通过解码器生成输出句（目标句）。

1 特征（representation）可以有多种表现形式。它既可以为单一数值，也可以为向量或矩阵。在无特殊指明的地方，本书会根据实际情况译为特征、特征向量或特征值。——译者注

假设我们需要将一个句子从英文翻译为法文。如图1-1所示，首先，我们需要将这个英文句子（原句）输进编码器。编码器将提取英文句子的特征并提供给解码器。最后，解码器通过特征完成法文句子（目标句）的翻译。

图1-1　Transformer的编码器和解码器

此方法看起来很简单，但是如何实现呢？Transformer中的编码器和解码器是如何将英文（原句）转换为法文（目标句）的呢？编码器和解码器的内部又是怎样工作的呢？接下来，我们将按照数据处理的顺序，依次讲解编码器和解码器。