从零构建大模型：算法、训练与微调最新章节_梁楠著

2.1　GPT-2核心模块

本节将深入探讨GPT-2模型的核心模块，以其层堆叠结构和注意力机制为重点。层堆叠是GPT-2实现多层特征表达的重要手段。通过多层的自注意力和前馈神经网络模块的堆叠，模型能够捕捉丰富的上下文信息和复杂的语言模式。注意力机制则是GPT-2处理长文本和进行高效建模的重要技术，通过多头注意力实现对不同位置信息的并行关注，可以提升模型的生成质量和上下文连贯性。

2.1.1　层堆叠

在GPT-2模型中，层堆叠是一种通过多层模块组合来增强模型特征表达能力的结构，每一层包含自注意力机制和前馈神经网络。每一层从前一层接收输入，通过自注意力捕捉序列中不同位置的依赖关系，再通过前馈神经网络进行特征变换，最后利用残差连接与层归一化稳定信息流动。这种层堆叠的设计使模型能够在生成任务中捕捉复杂的语言结构和语义关系。

前馈神经网络结构如图2-1所示， h 向量即前馈过程中需要更新的权向量。

图2-1　前馈神经网络结构示意图

以下代码将实现GPT-2中层堆叠的核心模块，包含多层自注意力和前馈神经网络，展示其在文本生成任务中的处理过程。

代码解析如下：

（1）SelfAttention：实现自注意力机制，通过生成查询（Q）、键（K）和值（V）矩阵，捕捉序列中不同位置的依赖关系，并通过缩放点积计算注意力权重。此外，也可以加入如图2-2所示的多头注意力机制。事实上后续架构中都已替换为多头注意力架构。

（2）FeedForward：前馈神经网络模块，包含两个全连接层和ReLU激活函数，用于对每层的特征进行非线性变换。

（3）TransformerBlock：包含自注意力机制、前馈神经网络以及残差连接和层归一化，实现单层的Transformer结构。每个位置的输入通过自注意力机制与其他位置的依赖关系相互作用，随后通过前馈神经网络进一步处理。

图2-2　多头注意力机制与Q、K、V向量

（4）GPT2LayerStack：将多个TransformerBlock堆叠，构建GPT-2模型的多层结构。每层的输出被传递到下一层，实现对多层特征的叠加表达。

代码运行结果如下：

     层堆叠模型输出形状: torch.Size([2, 10, 128])
     层堆叠模型输出:
     tensor([[[ 0.0213, -0.0365, ...,  0.8764],
               [-0.2345,  0.7654, ..., -0.9876],
               ... ]])

结果解析如下：

（1）层堆叠模型输出形状：输出的形状为[batch_size, seq_length, embed_size]，每层输出保持与输入一致的形状，以便层堆叠后无缝连接。

（2）层堆叠模型输出：每一位置的输出反映了该位置在多层处理后提取到的上下文特征。层堆叠使得模型能够捕捉到丰富的序列依赖关系，为后续文本生成提供坚实基础。

2.1.2　GPT-2中的注意力机制

GPT-2中的注意力机制通过自注意力实现，允许模型在处理每个位置的词时关注其他位置的信息。不同于双向注意力，GPT-2使用单向的自回归注意力，使得在生成任务时，每个位置只能看到它之前的词，从而保持文本生成的连贯性和一致性。

具体而言，GPT-2的注意力机制首先将输入转换为查询（Q）、键（K）和值（V）矩阵，通过缩放点积计算查询与键的相似性，生成注意力权重矩阵，再将它与值矩阵相乘得到输出。多头注意力进一步提升了捕捉不同特征的能力。

以下代码将实现GPT-2中的注意力机制，包括单向掩码和多头注意力的具体计算过程。

代码解析如下：

（1）GPT2SelfAttention：实现了GPT-2的自注意力机制，包含单向掩码，使得每个位置仅能关注自己和之前的词，避免生成时泄露未来信息。通过查询、键、值矩阵的缩放点积计算，生成注意力权重。

（2）FeedForward：前馈神经网络模块，包含两个全连接层和ReLU激活函数，用于对特征进行进一步变换。

（3）GPT2Block：将自注意力机制和前馈神经网络堆叠，加入残差连接和层归一化，构成GPT-2的基本模块。每一层首先通过单向自注意力机制捕捉依赖关系，再通过前馈神经网络提升特征表达能力。

代码运行结果如下：

     GPT-2注意力机制输出形状: torch.Size([2, 10, 128])
     GPT-2注意力机制输出:
     tensor([[[ 0.123, -0.456, ... ],
               [ 0.789,  0.234, ... ],
               ... ]])

结果解析如下：

（1）GPT-2注意力机制输出形状：GPT-2注意力机制输出的形状与输入一致，使得模型可多层堆叠使用。

（2）GPT-2注意力机制输出：输出反映了GPT-2注意力机制在多头机制和单向掩码下捕捉到的序列依赖信息。

2.1 GPT-2核心模块

2.1.1 层堆叠

2.1.2 GPT-2中的注意力机制

2.1　GPT-2核心模块

2.1.1　层堆叠

2.1.2　GPT-2中的注意力机制