从零构建大模型：算法、训练与微调最新章节_梁楠著

1.4　残差连接与层归一化

在深层神经网络中，残差连接和层归一化是提高训练稳定性和优化性能的关键组件。本节将首先详细介绍残差连接的实现方法及其在深层网络中的作用，接着探讨层归一化的工作原理，分析其如何稳定训练过程。

1.4.1　残差连接层的实现

残差连接是一种将输入直接添加到输出的机制，它通过构建“捷径”路径缓解了深层网络中的梯度消失问题，使得信息可以在不经过所有层的情况下流动，从而提高深层神经网络的训练效率。

在实现中，残差连接会将输入与经过若干层变换的输出相加，使模型在增加层数的同时不会过度影响梯度传播。残差学习结构如图1-7所示，权重层（weight layer）会经过两次relu进行非线性激活，以便更好地学习到输入信息的深层特征。

图1-7　残差学习结构图

以下代码将展示残差连接的实现，并结合卷积和激活函数构建一个带残差连接的网络层结构。

代码解析如下：

（1）ResidualBlock：定义了一个残差块，包含两个卷积层和批归一化层。在前向传播中，将输入添加到卷积层输出中，实现残差连接。如果输入和输出的维度不同，使用下采样层调整输入以匹配输出维度。

（2）ResNetLike：搭建一个简单的网络模型，包含多个残差块。在模型结构中，前几层为卷积层，用于特征提取，中间层使用多个残差块来增强特征表达能力，最后通过全局平均池化和全连接层实现分类。

（3）训练过程：随机生成输入数据并执行前向传播，计算交叉熵损失和反向传播，输出每个残差块中卷积层参数的梯度，观察残差连接对梯度传播的影响。

代码运行结果如下：

     网络输出: tensor([[ 0.1210, -0.3456, ...,  0.7645]])
     训练损失: 2.5308
     layer2.conv1.weight: tensor([...], grad_fn=<SubBackward0>)
     layer2.bn1.weight: tensor([...], grad_fn=<SubBackward0>)
     ...

结果解析如下：

（1）网络输出：展示了经过残差网络处理后的输出，表明该网络可以通过残差连接捕捉到有效特征。

（2）训练损失：表示网络在一次训练迭代中的损失值。

（3）梯度检查：显示残差块中各参数的梯度，表明梯度在深层网络中传播顺畅，证实了残差连接能缓解梯度消失问题。

1.4.2　层归一化与训练稳定性

层归一化是一种提高神经网络训练稳定性的正则化方法。通过对每一层的输入进行标准化，使得网络中的每一层在训练过程中保持相对一致的分布，从而加速收敛并缓解梯度消失问题。

层归一化将输入在特征维度上进行标准化，并使用可学习的缩放参数和偏置参数进行调整，使得网络能够更灵活地适应不同任务。相比于批归一化，层归一化在序列建模任务和小批量数据训练中更加适用。

以下代码将展示层归一化的实现及其在神经网络中的应用。

代码解析如下：

（1）LayerNormBlock：实现带层归一化的基本模块，包含层归一化、全连接和激活函数。每次前向传播时，输入会先经过层归一化，使得各特征在标准化后更加稳定，避免分布偏移对训练的影响。

（2）SimpleLayerNormModel：构建一个简单的神经网络结构，包含3个层归一化模块。每层对输入进行层归一化，再通过全连接和激活层处理，使得输出更具有可训练性和稳定性。

（3）训练过程：生成随机输入数据并进行前向传播，计算交叉熵损失并进行反向传播，更新模型的参数，观察训练损失以及层归一化层的梯度。

（4）测试模型在不同输入分布下的稳定性：模拟不同分布的输入数据，以验证层归一化在保持模型输出稳定性方面的作用。

代码运行结果如下：

     网络输出: tensor([[ 0.1210, -0.3456, ...,  0.7645]])
     训练损失: 2.5308
     layer1.layer_norm.weight: tensor([...], grad_fn=<SubBackward0>)
     layer1.layer_norm.bias: tensor([...], grad_fn=<SubBackward0>)
     测试数据的网络输出: tensor([[0.6543, -0.2345, ..., 1.1245]])

结果解析如下：

（1）网络输出：表示模型在前向传播后的输出，表明经过层归一化后的模型能够产生稳定的特征。

（2）训练损失：表示训练过程中计算的损失值，表明模型能够有效地进行学习。

（3）梯度检查：显示层归一化层的参数梯度，表明在训练中层归一化层的可学习参数更新正常。

（4）测试数据的网络输出：验证层归一化在不同输入分布下的稳定性，使模型在输入变化时依然保持输出的稳定性和一致性。

1.4 残差连接与层归一化

1.4.1 残差连接层的实现

1.4.2 层归一化与训练稳定性

1.4　残差连接与层归一化

1.4.1　残差连接层的实现

1.4.2　层归一化与训练稳定性