购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

循环神经网络和长短期记忆网络已经广泛应用于时序任务,比如文本预测、机器翻译、文章生成等。然而,它们面临的一大问题就是如何记录长期依赖。

为了解决这个问题,一个名为Transformer的新架构应运而生。从那以后,Transformer被应用到多个自然语言处理方向,到目前为止还未有新的架构能够将其替代。可以说,它的出现是自然语言处理领域的突破,并为新的革命性架构(BERT、GPT-3、T5等)打下了理论基础。

Transformer完全依赖于注意力机制,并摒弃了循环。它使用的是一种特殊的注意力机制,称为 自注意力 (self-attention)。我们将在后面介绍具体细节。

让我们通过一个文本翻译实例来了解Transformer是如何工作的。Transformer由编码器和解码器两部分组成。首先,向编码器输入一句话(原句),让其学习这句话的特征 1 ,再将特征作为输入传输给解码器。最后,此特征会通过解码器生成输出句(目标句)。

1 特征(representation)可以有多种表现形式。它既可以为单一数值,也可以为向量或矩阵。在无特殊指明的地方,本书会根据实际情况译为特征、特征向量或特征值。——译者注

假设我们需要将一个句子从英文翻译为法文。如图1-1所示,首先,我们需要将这个英文句子(原句)输进编码器。编码器将提取英文句子的特征并提供给解码器。最后,解码器通过特征完成法文句子(目标句)的翻译。

图1-1 Transformer的编码器和解码器

此方法看起来很简单,但是如何实现呢?Transformer中的编码器和解码器是如何将英文(原句)转换为法文(目标句)的呢?编码器和解码器的内部又是怎样工作的呢?接下来,我们将按照数据处理的顺序,依次讲解编码器和解码器。 4mpLRjxNwYOA9P15M0DTc1D+UdIDbqOIvMyzIwtzBWfI137FbDOu6iEsFW7H5GoD

点击中间区域
呼出菜单
上一章
目录
下一章
×