神经网络Transformer架构中的灾难性遗忘
字数 846 2025-12-01 02:33:53
神经网络Transformer架构中的灾难性遗忘
灾难性遗忘是指神经网络在学习新任务时,会快速遗忘之前已学习任务的知识的现象。在Transformer架构的持续学习场景中,当模型参数为适应新数据而更新时,先前任务的重要特征表示会被覆盖。
持续学习背景
持续学习要求模型在不重新训练全部数据的情况下,按顺序学习多个任务。Transformer模型在处理序列任务时,若直接在新任务数据上微调,原始任务的注意力模式和权重分布会被破坏。例如,在从情感分析任务切换到命名实体识别任务时,模型可能丧失对情感词汇的敏感度。
遗忘机制分析
- 参数覆盖:Transformer的共享参数(如注意力投影矩阵)在优化过程中会偏向新任务的损失梯度方向,导致旧任务对应的权重配置失效
- 表示漂移:层归一化统计量的变化会改变特征分布,使得旧任务所需的激活模式发生偏移
- 注意力混淆:多头注意力机制中的查询键值映射关系被重构,旧任务重要的注意力头功能退化
缓解方法分类
-
正则化约束:
- 弹性权重巩固(EWC)通过计算参数重要性矩阵,在优化时限制重要参数的变动范围
- 学习过程正则化会保留旧任务的部分梯度方向
-
动态架构:
- 渐进式扩展网络结构,为每个任务分配专用参数
- 适配器模块在Transformer层间插入可训练瓶颈层,冻结主干参数
-
回放机制:
- 保存旧任务的代表性样本,在训练新任务时混合训练
- 生成对抗网络重构旧任务数据分布
-
元学习策略:
- 优化器设计使模型学会参数更新规则,平衡新旧任务损失
- 梯度投影方法约束参数更新方向在旧任务的可行域内
评估指标
- 平均准确率:所有任务最终准确率的算术均值
- 遗忘度量:旧任务初始与最终准确率的差值
- 前向迁移:新任务学习对未见过任务的影响程度
技术挑战
- 存储效率与性能的权衡
- 任务间负迁移的避免
- 任务身份识别时的误差传播
- 长任务序列下的累积偏差
当前研究重点包括开发参数高效的持续学习方法,利用Transformer的模块化特性实现知识隔离,同时通过注意力蒸馏等技术保持跨任务的通用语言理解能力。