神经网络Transformer架构中的层归一化
字数 398 2025-11-24 00:59:55
神经网络Transformer架构中的层归一化
层归一化是一种用于稳定神经网络训练过程的技术。它的核心原理是在每个神经网络层的输出上执行标准化操作,使其均值为0、方差为1,然后再进行缩放和平移变换。
具体实现步骤如下:
- 计算单个样本在特定层所有神经元输出上的均值
- 计算对应方差
- 使用均值和方差对每个神经元输出进行标准化
- 引入可学习的缩放参数γ和平移参数β,恢复网络的表示能力
层归一化与批量归一化的关键区别在于:
- 批量归一化沿批次维度标准化
- 层归一化沿特征维度标准化
在Transformer架构中,层归一化被应用于:
- 每个子层(自注意力/前馈网络)的输出之后
- 残差连接之前
这种安排带来了三个主要优势:
- 训练稳定性:缓解内部协变量偏移问题
- 收敛加速:支持使用更高学习率
- 泛化改善:轻微的正则化效果
层归一化对Transformer训练效率的提升尤为显著,使其能够有效训练极深层的神经网络模型。