从零构建大模型：算法、训练与微调最新章节_梁楠著

1.5　位置编码器

在Transformer模型中，位置编码器用于在无序的输入序列中引入位置信息，使模型能够识别不同词之间的相对位置关系。本节将详细探讨位置编码的计算方法及其在无序文本数据中的重要作用。

位置编码器是用于在Transformer模型中引入序列位置信息的机制，使得模型在处理无序的输入数据时可以捕捉到词汇之间的顺序关系。由于自注意力机制对输入的顺序没有先验认知，因此位置编码将每个位置映射为特定的向量，并将其与词嵌入相加，从而在保持原始词语语义的同时，提供位置信息。

位置编码常见的实现方式是基于正弦和余弦函数生成固定的编码，这种编码具有良好的平移不变性，适合于捕捉序列中的相对位置信息。位置编码过程示意图如图1-8所示。

图1-8　位置编码过程示意图

以下代码将实现位置编码的计算和在输入嵌入中的应用。

代码解析如下：

（1）PositionalEncoding：实现位置编码计算，通过正弦和余弦函数生成位置编码矩阵。对于序列中的每个位置，生成的编码具有不同的频率，能够捕捉到位置信息。使用register_buffer将编码矩阵存储在模型中，使其不会在训练过程中更新。

（2）EmbeddingWithPositionalEncoding：结合词嵌入和位置编码，将位置编码应用到输入嵌入上。在前向传播中，先将输入词汇索引转换为嵌入，再与位置编码相加，以保留位置信息。

（3）测试和验证：生成不同的输入序列，通过带位置编码的嵌入层前向传播输出结果，观察位置编码的效果，同时展示不同长度序列下位置编码的稳定性。

代码运行结果如下：

结果解析如下：

（1）输出的形状：展示带位置编码的嵌入层输出，形状为[batch_size, seq_length, embed_size]，其中包含每个词的嵌入和位置编码之和。

（2）位置编码矩阵内容：显示了位置编码矩阵的部分内容，通过正弦和余弦函数生成的编码可以有效保留位置信息。

（3）不同长度序列的输出：验证位置编码在不同序列长度下的适用性，使得模型在面对无序序列时仍能捕捉到词汇的相对位置信息。

在自然语言处理中，位置编码对无序文本数据的处理具有重要意义。由于Transformer模型不具备内置的顺序信息，因此位置编码通过为每个词提供唯一的位置信息，使模型能够捕捉到序列中词与词之间的相对位置关系。在无序的文本数据中，这种位置信息至关重要，可以帮助模型理解句子的上下文结构、词语间的依赖关系。

以下示例将展示位置编码在无序文本中的作用，并分析其在生成自然语言中如何保持语义一致性。

代码解析如下：

（1）PositionalEncoding：实现位置编码，通过正弦和余弦函数生成一个固定位置编码矩阵。将位置信息添加到词嵌入中，为模型提供每个词的序列位置信息，使其能够理解上下文关系。

（2）EmbeddingWithPositionalEncoding：将位置编码与词嵌入相加，使词汇的位置信息融入嵌入层，帮助模型在无序数据中保留相对位置信息。

（3）生成无序输入：定义函数，生成无序输入数据，通过随机打乱序列中的词序，模拟无序文本数据，用于测试位置编码在不同序列中的作用。输入序列自注意力机制计算过程如图1-9所示。

图1-9　以HelloWorld为例求解自注意力机制的过程

（4）SimpleTransformerModel：一个简化的Transformer模型，包含位置编码、多头注意力和输出层，通过对比原始输入和无序输入，分析位置编码在序列处理中的作用。

代码运行结果如下：

结果解析如下：

（1）原始与无序输入的嵌入输出：显示了带位置编码嵌入的原始和无序输入的输出差异，通过位置编码能够观察到相对位置信息的差异。

（2）模型在无序和原始输入下的输出：展示了在无序和有序输入下模型的输出差异，进一步验证了位置编码在保持序列语义一致性方面的作用。

本章频繁出现的函数、方法及其功能已总结在表1-1中，读者可在学习过程中随时查阅该表来复习和巩固本章学习成果。

表1-1　本章用到的函数、方法及其功能汇总表