神经网络Transformer架构
字数 715 2025-11-16 13:33:43
神经网络Transformer架构
神经网络Transformer架构是一种基于自注意力机制的神经网络架构,最初为序列到序列任务设计,现已成为自然语言处理等领域的主流模型基础。
-
序列建模的挑战
传统循环神经网络(RNN)按时间步逐步处理序列,存在梯度消失和难以并行化的问题。长序列中早期信息易丢失,且训练时无法同时计算所有时间步,效率低。 -
自注意力机制的核心思想
自注意力允许序列中每个元素直接与其他元素交互,通过计算权重动态聚合全局信息。具体步骤:- 输入向量通过线性变换生成查询、键、值矩阵。
- 查询与键的点积计算相似度,缩放后通过Softmax得到注意力权重。
- 权重与值加权求和,输出融合上下文的新表示。
优势:长距离依赖捕获更有效,且计算可完全并行化。
-
Transformer的组件结构
- 编码器-解码器框架:编码器将输入序列映射为隐藏表示,解码器基于该表示生成输出序列。
- 多头注意力:并行多个自注意力头,捕捉不同子空间的依赖关系(如语法、语义)。
- 位置编码:为输入添加正弦或学习式位置向量,弥补自注意力对顺序不敏感的缺陷。
- 前馈网络:对每个位置独立应用全连接层和非线性激活,增强模型表达能力。
- 残差连接与层归一化:缓解梯度消失,加速训练稳定性。
-
训练与推理特性
- 训练时解码器可并行处理目标序列,通过掩码避免未来信息泄露。
- 推理时解码器自回归生成,每一步依赖前一步输出。
- 梯度传播路径更短,优于RNN,尤其对长序列任务。
-
演进与影响
Transformer催生了BERT(仅用编码器)、GPT(仅用解码器)等模型,推动预训练语言模型的革命。其并行化和扩展性支撑了千亿参数级模型的训练,成为大语言模型的核心基石。