神经网络Transformer架构中的词汇频率平滑
神经网络Transformer架构中的词汇频率平滑,是一种在处理自然语言时,用于缓解因词汇在训练数据中分布不均(即某些词出现频率极高,而另一些词极低)所带来负面影响的技术。其核心目标是修正模型对高频词的过度偏好和对低频词的忽视,从而提升模型在词汇表示、生成和理解上的鲁棒性与公平性。
第一步:理解词汇频率不平衡问题
在用于训练Transformer模型(如BERT、GPT)的大规模文本语料库中,词汇的分布遵循齐普夫定律,即极少数的词汇(如“the”,“is”,“in”)占据了总词频的绝大部分,而绝大多数的词汇(如专业术语、罕见名词)出现次数极少。这种不平衡会直接影响到模型的学习:
- 嵌入表示偏差:高频词会获得过多训练机会,其词嵌入向量变得过于“强势”,可能挤占嵌入空间的有限容量,导致低频词的嵌入学习不充分、不准确。
- 输出层偏差:在语言模型(如GPT)的预测头(输出层),模型倾向于给高频词分配过高的概率,因为从训练数据的统计规律看,预测到它们的“基础概率”本身就很高。
- 对稀有词处理不佳:模型在面对训练时罕见的词汇或新词时,容易产生错误或“未知”行为。
第二步:平滑技术的基本思想与常见方法
频率平滑的核心思想是“削峰填谷”——适度降低高频词在训练中的显性影响,同时为低频词提供额外的学习支持或概率质量。主要作用于两个层面:损失函数层面和输出概率层面。
-
损失函数层面的平滑:标签平滑
这并非直接作用于词汇频率,但通过缓解模型对“绝对正确”标签的过度自信,间接平滑了输出概率分布。在标准的交叉熵损失中,正确标签的概率被设为1,其他为0。标签平滑将其修正为:正确标签概率为 (1 - ε),所有错误标签共享 ε 的概率质量(均匀分布或按频率分布)。这使得模型不会极端地给高频答案分配过高的置信度,为低频词保留了一定的可能性空间。这在您已学习的词条“神经网络Transformer架构中的标签平滑”中已有详述。 -
输出概率层面的平滑(直接频率平滑):
这是更直接针对词汇频率的方法,通常在模型输出的Softmax概率上进行调整。假设词汇表大小为V,模型对第i个词输出的原始分数(logit)为 \(z_i\),其标准Softmax概率为 \(P(i) = \exp(z_i) / \sum_{j=1}^{V} \exp(z_j)\)。- 加性平滑(Additive Smoothing / Laplace Smoothing):在计算Softmax前,为每一个logit加上一个小的常数α(例如0.1或1)。即使用 \(z_i' = z_i + \alpha\) 来计算概率。这相当于为每个词汇(无论频率高低)预先分配了α次“虚拟出现次数”,有效提升了低频词的基础概率,抑制了高频词的概率峰值。
- 频率折现平滑(Frequency Discounting):根据词汇在训练语料中的频率 \(f_i\) 来调整其logit。例如,使用公式 \(z_i' = z_i / (f_i)^{\beta}\),其中β是一个介于0和1之间的平滑因子。高频词的 \(f_i\) 大,其logit会被相对抑制;低频词的 \(f_i\) 小,logit被相对提升。
- 基于采样的平滑(如重要性采样、噪声对比估计):在计算损失时,不是使用整个庞大的词汇表,而是从一种精心设计的分布中采样一部分负样本(错误答案)来计算近似梯度。通过让采样分布更倾向于包含低频词作为负样本,可以增加模型学习区分低频词的机会。这类方法更多地被视为一种训练效率优化和隐式平滑策略。
第三步:平滑技术在Transformer架构中的具体应用点
- 预训练任务(如掩码语言建模MLM):在BERT等模型的MLM任务中,被掩码的词可能是任意词。如果不对输出概率进行平滑,模型会极其倾向于预测出像“the”这样的高频词作为掩码位置的答案,无论上下文如何。应用频率平滑后,模型对低频但更贴合上下文的词汇(如“algorithm”、“mitochondria”)的预测概率会得到提升,使学习到的表示更具判别性。
- 自回归语言模型生成(如GPT系列):在文本生成时,模型每一步都需要从词汇表分布中采样下一个词。未经平滑的原始分布会导致生成文本充斥着高频的、无意义的常见词,缺乏多样性和特异性。通过应用平滑(如添加一个小的“温度”参数调节Softmax,或直接加性平滑),可以“软化”输出分布,让更多有创意但概率稍低的词有机会被选中,从而提高生成文本的多样性和质量。这里的“温度”参数与平滑概念紧密相关,已在“神经网络Transformer架构中的温度参数”词条中讨论。
- 词嵌入初始化与微调:有些方法会在训练初期,根据词频对嵌入向量的学习率进行微调,给低频词分配稍大的学习率,使其能更快地调整到合适的位置,这也是一种动态的频率平滑策略。
第四步:平滑的权衡与影响
应用词汇频率平滑并非没有代价,需要进行精细的权衡:
- 正面影响:提升模型对稀有词、新词的泛化能力;增加生成文本的多样性和创造性;使模型输出分布更“平缓”和“保守”,可能提升校准性(预测概率更反映真实正确率)。
- 负面影响:过度平滑会模糊词汇之间的重要概率差异,可能导致模型性能下降,特别是对那些高频且确实正确的预测产生不必要的抑制,降低准确率。因此,平滑强度(如α, β, ε, 温度T等超参数)需要根据具体任务和数据集仔细调整。
总之,神经网络Transformer架构中的词汇频率平滑是一组至关重要的技术,它通过算法干预,修正数据固有偏差对模型学习的不利影响,是构建健壮、公平、高效的自然语言处理模型不可或缺的一环。