购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

作为当下最先进的深度学习架构之一,Transformer被广泛应用于 自然语言处理 领域。它不单替代了以前流行的 循环神经网络 (recurrent neural network,RNN)和 长短期记忆 (long short-term memory,LSTM)网络,并且以它为基础衍生出了诸如BERT、GPT-3、T5等知名架构。本章将带领你深入了解Transformer的实现细节及工作原理。

本章首先介绍Transformer的基本概念,然后通过一个文本翻译实例进一步讲解Transformer如何将编码器−解码器架构用于语言翻译任务。我们将通过探讨 编码器 (encoder)的组成部分了解它的工作原理。之后,我们将深入了解 解码器 (decoder)的组成部分。最后,我们将整合编码器和解码器,进而理解Transformer的整体工作原理。

本章重点如下。 cfUEApjrnXBElnTaiufBik5kqlw1N8OvxLXgHYbpaqFY72v4tdTTSTJOZU9J1usp

点击中间区域
呼出菜单
上一章
目录
下一章
×