神经网络Transformer架构中的预测采样
字数 1782 2025-12-03 07:46:43

神经网络Transformer架构中的预测采样

  1. 核心概念与动机

    • 在Transformer架构(特别是其解码器)用于生成任务(如文本生成、图像生成)时,模型在每个时间步都会输出一个关于下一个目标(如下一个词元)的概率分布,即“预测分布”。
    • 预测采样,也称为“解码策略”或“生成策略”,是指从模型的这个输出概率分布中,选择下一个具体词元的方法。它不是模型训练的一部分,而是模型在推理(使用)阶段的关键步骤。
    • 其动机在于:贪婪地选择最高概率的词元(贪心搜索)往往会导致重复、单调或不自然的输出。因此,需要设计不同的采样策略,在输出的确定性(可控、连贯)和多样性(新颖、有趣)之间取得平衡。
  2. 主要采样策略详解

    • 贪心搜索
      • 方法:在每一步,都无条件地选择概率最高的那个词元。公式为:\(w_t = \arg\max_{v \in V} P(w | w_{1:t-1})\),其中 \(V\) 是词汇表。
      • 特点:计算高效,但输出容易陷入局部最优,缺乏变化,常生成重复或通用性强的文本。
    • 束搜索
      • 方法:一种广度优先的启发式搜索。它保留beam_size(束宽)个当前最优的候选序列(称为“束”)。在每一步,每个候选序列都会扩展所有可能的词元,但只保留总体概率最高的 beam_size 个新序列。
      • 特点:比贪心搜索能找到概率更高的全局序列,确定性更强,但多样性依然受限,且输出长度容易趋同。常用于机器翻译等需要精确结果的任务。
    • 随机采样
      • 方法:直接根据模型输出的原始概率分布进行随机抽样。即下一个词元 w 被选中的概率就是模型预测的概率 \(P(w | w_{1:t-1})\)
      • 特点:能产生很高的多样性,但完全随机可能导致输出不连贯、不合逻辑。
    • 温度缩放采样
      • 方法:引入一个“温度”参数 \(T\) 来调整输出分布的形状。具体做法是将模型原始输出的逻辑值(logits)除以 \(T\),再经过softmax得到新分布:\(P'(w) = \text{softmax}(\text{logits} / T)\)
      • 影响
        • T = 1:保持原始分布。
        • T < 1(冷却):分布更“尖锐”,高概率词元概率被放大,采样确定性增加,多样性减少。
        • T > 1(加热):分布更“平滑”,低概率词元机会增加,采样随机性增强,多样性提高。
      • 通常与以下策略结合使用,以控制随机性的程度。
    • Top-k 采样
      • 方法:在每一步,只从概率最高的 k 个词元组成的集合中重新归一化概率分布(将其他词元概率置零),然后从该新分布中采样。
      • 特点:避免了从极低概率的“尾部”词元中采样,保证了基本质量,同时引入随机性。关键在于 k 值的选择:k 太小则像贪心,k 太大则像随机。
    • Top-p(核)采样
      • 方法:是Top-k的动态版本。设定一个概率累计阈值 p(如0.9)。将词元按概率降序排列,从高到低累加概率,直到累计和首次超过 p,然后用这个最小集合内的词元重新归一化概率并采样。
      • 特点:能根据每一步分布的形状动态调整候选集大小。对于尖锐的分布,候选集小;对于平坦的分布,候选集大。这比固定 k 值的Top-k采样更灵活,是当前最主流的策略之一。
    • 典型惩罚
      • 方法:在采样过程中,对已经出现过的词元(或n-gram)的概率进行惩罚(例如,直接降低其logits值),然后再进行采样。
      • 特点:一种后处理手段,主要用于抑制生成文本中的重复现象,常与其他采样策略(如Top-p)结合使用。
  3. 策略选择与组合应用

    • 在实际应用中,通常组合使用多种策略以达到最佳效果。一个现代文本生成模型的典型采样配置可能是:温度缩放 + Top-p采样 + 典型惩罚
    • 选择依据
      • 创造性任务(如写故事、诗歌):倾向于使用较高的温度(T>1)和Top-p采样,以鼓励多样性。
      • 事实性/确定性任务(如代码生成、摘要):倾向于使用较低的温度(T≤1)或束搜索,以提高准确性和连贯性。
      • 对话系统:常用适中的温度和Top-p采样,以平衡连贯性和有趣度。
    • 预测采样的选择本质上是在探索(尝试新路径)与利用(遵循高概率路径)之间做权衡,是控制生成式Transformer模型输出质量与风格的核心“旋钮”之一。
神经网络Transformer架构中的预测采样 核心概念与动机 在Transformer架构(特别是其解码器)用于生成任务(如文本生成、图像生成)时,模型在每个时间步都会输出一个关于下一个目标(如下一个词元)的概率分布,即“预测分布”。 预测采样 ,也称为“解码策略”或“生成策略”,是指从模型的这个输出概率分布中,选择下一个具体词元的方法。它不是模型训练的一部分,而是模型在推理(使用)阶段的关键步骤。 其动机在于:贪婪地选择最高概率的词元(贪心搜索)往往会导致重复、单调或不自然的输出。因此,需要设计不同的采样策略,在输出的 确定性 (可控、连贯)和 多样性 (新颖、有趣)之间取得平衡。 主要采样策略详解 贪心搜索 方法 :在每一步,都无条件地选择概率最高的那个词元。公式为:\( w_ t = \arg\max_ {v \in V} P(w | w_ {1:t-1}) \),其中 \( V \) 是词汇表。 特点 :计算高效,但输出容易陷入局部最优,缺乏变化,常生成重复或通用性强的文本。 束搜索 方法 :一种广度优先的启发式搜索。它保留 beam_size (束宽)个当前最优的候选序列(称为“束”)。在每一步,每个候选序列都会扩展所有可能的词元,但只保留总体概率最高的 beam_size 个新序列。 特点 :比贪心搜索能找到概率更高的全局序列,确定性更强,但多样性依然受限,且输出长度容易趋同。常用于机器翻译等需要精确结果的任务。 随机采样 方法 :直接根据模型输出的原始概率分布进行随机抽样。即下一个词元 w 被选中的概率就是模型预测的概率 \( P(w | w_ {1:t-1}) \)。 特点 :能产生很高的多样性,但完全随机可能导致输出不连贯、不合逻辑。 温度缩放采样 方法 :引入一个“温度”参数 \( T \) 来调整输出分布的形状。具体做法是将模型原始输出的逻辑值(logits)除以 \( T \),再经过softmax得到新分布:\( P'(w) = \text{softmax}(\text{logits} / T) \)。 影响 : T = 1 :保持原始分布。 T < 1 (冷却):分布更“尖锐”,高概率词元概率被放大,采样确定性增加,多样性减少。 T > 1 (加热):分布更“平滑”,低概率词元机会增加,采样随机性增强,多样性提高。 通常与以下策略结合使用,以控制随机性的程度。 Top-k 采样 方法 :在每一步,只从概率最高的 k 个词元组成的集合中重新归一化概率分布(将其他词元概率置零),然后从该新分布中采样。 特点 :避免了从极低概率的“尾部”词元中采样,保证了基本质量,同时引入随机性。关键在于 k 值的选择: k 太小则像贪心, k 太大则像随机。 Top-p(核)采样 方法 :是Top-k的动态版本。设定一个概率累计阈值 p (如0.9)。将词元按概率降序排列,从高到低累加概率,直到累计和首次超过 p ,然后用这个最小集合内的词元重新归一化概率并采样。 特点 :能根据每一步分布的形状动态调整候选集大小。对于尖锐的分布,候选集小;对于平坦的分布,候选集大。这比固定 k 值的Top-k采样更灵活,是当前最主流的策略之一。 典型惩罚 方法 :在采样过程中,对已经出现过的词元(或n-gram)的概率进行惩罚(例如,直接降低其logits值),然后再进行采样。 特点 :一种后处理手段,主要用于抑制生成文本中的重复现象,常与其他采样策略(如Top-p)结合使用。 策略选择与组合应用 在实际应用中,通常 组合使用 多种策略以达到最佳效果。一个现代文本生成模型的典型采样配置可能是: 温度缩放 + Top-p采样 + 典型惩罚 。 选择依据 : 创造性任务 (如写故事、诗歌):倾向于使用较高的温度(T>1)和Top-p采样,以鼓励多样性。 事实性/确定性任务 (如代码生成、摘要):倾向于使用较低的温度(T≤1)或束搜索,以提高准确性和连贯性。 对话系统 :常用适中的温度和Top-p采样,以平衡连贯性和有趣度。 预测采样的选择本质上是在 探索 (尝试新路径)与 利用 (遵循高概率路径)之间做权衡,是控制生成式Transformer模型输出质量与风格的核心“旋钮”之一。