大模型驱动的研发效能实践最新章节_顾黄亮著

2.1 Transformer模型的由来

以RNN、LSTM为代表的模型在处理时序数据时表现优异，然而，由于具有串行计算特性，导致其在训练与推理过程中效率较低。根本原因在于RNN和LSTM模型的处理逻辑中，每个时间步的输出不仅依赖于当前输入，还受到前一时间步输出的影响。这表明，在计算当前时间步输出之前，必须先计算之前所有时间步的输出。

此外，RNN模型在处理长距离依赖时存在困难，梯度消失或爆炸的问题使模型难以学习长距离依赖。LSTM模型通过引入记忆门机制缓解了梯度消失或梯度爆炸问题，能够更有效地处理长距离依赖。

为解决这一问题，Google AI团队于2017年提出了Transformer模型，这是一种用于处理序列数据的深度学习模型。Transformer的提出标志着自然语言处理领域从传统的RNN、LSTM、GRU等模型进入能够并行训练的深度学习时代。目前最流行的大语言模型，如BERT、GPT-3等，均基于Transformer模型构建。因此，理解Transformer模型的基本原理，对于掌握大语言模型的工作机制及应用场景至关重要。本章将从Transformer模型的基本原理、模型结构和训练方法三个方面来介绍Transformer模型的基础要素。

购买书籍时，会优先扣除您的代金券，再扣除阅饼；当您的余额不足时，可使用微信或支付宝支付，补足差价；
连载书籍勾选自动购买下一章后，会自动扣费，已购章节不会重复扣费；
书籍购买记录请至我的—购书记录中查询