神经网络Transformer架构

字数 715 2025-11-16 13:33:43

神经网络Transformer架构

神经网络Transformer架构是一种基于自注意力机制的神经网络架构，最初为序列到序列任务设计，现已成为自然语言处理等领域的主流模型基础。

序列建模的挑战
传统循环神经网络（RNN）按时间步逐步处理序列，存在梯度消失和难以并行化的问题。长序列中早期信息易丢失，且训练时无法同时计算所有时间步，效率低。
自注意力机制的核心思想
自注意力允许序列中每个元素直接与其他元素交互，通过计算权重动态聚合全局信息。具体步骤：
- 输入向量通过线性变换生成查询、键、值矩阵。
- 查询与键的点积计算相似度，缩放后通过Softmax得到注意力权重。
- 权重与值加权求和，输出融合上下文的新表示。
  优势：长距离依赖捕获更有效，且计算可完全并行化。
Transformer的组件结构
- 编码器-解码器框架：编码器将输入序列映射为隐藏表示，解码器基于该表示生成输出序列。
- 多头注意力：并行多个自注意力头，捕捉不同子空间的依赖关系（如语法、语义）。
- 位置编码：为输入添加正弦或学习式位置向量，弥补自注意力对顺序不敏感的缺陷。
- 前馈网络：对每个位置独立应用全连接层和非线性激活，增强模型表达能力。
- 残差连接与层归一化：缓解梯度消失，加速训练稳定性。
训练与推理特性
- 训练时解码器可并行处理目标序列，通过掩码避免未来信息泄露。
- 推理时解码器自回归生成，每一步依赖前一步输出。
- 梯度传播路径更短，优于RNN，尤其对长序列任务。
演进与影响
Transformer催生了BERT（仅用编码器）、GPT（仅用解码器）等模型，推动预训练语言模型的革命。其并行化和扩展性支撑了千亿参数级模型的训练，成为大语言模型的核心基石。