神经网络Transformer架构中的层归一化

. . . . . .

神经网络Transformer架构中的层归一化

字数 398 2025-11-24 00:59:55

神经网络Transformer架构中的层归一化

层归一化是一种用于稳定神经网络训练过程的技术。它的核心原理是在每个神经网络层的输出上执行标准化操作，使其均值为0、方差为1，然后再进行缩放和平移变换。

具体实现步骤如下：

计算单个样本在特定层所有神经元输出上的均值
计算对应方差
使用均值和方差对每个神经元输出进行标准化
引入可学习的缩放参数γ和平移参数β，恢复网络的表示能力

层归一化与批量归一化的关键区别在于：

批量归一化沿批次维度标准化
层归一化沿特征维度标准化

在Transformer架构中，层归一化被应用于：

每个子层（自注意力/前馈网络）的输出之后
残差连接之前

这种安排带来了三个主要优势：

训练稳定性：缓解内部协变量偏移问题
收敛加速：支持使用更高学习率
泛化改善：轻微的正则化效果

层归一化对Transformer训练效率的提升尤为显著，使其能够有效训练极深层的神经网络模型。