神经网络Transformer架构中的非自回归生成

字数 1385 2025-12-02 22:52:05

神经网络Transformer架构中的非自回归生成

生成方式的基本区分：在序列生成任务（如机器翻译、文本摘要）中，模型生成目标序列的方式主要分为两类。一类是自回归生成，即模型依次逐个预测下一个词元，每一步的预测都依赖于之前所有已生成的词元，如同一个人逐字写作。这种方式准确但顺序执行，速度较慢。另一类则是非自回归生成，其核心思想是打破这种严格的顺序依赖，试图一次性或并行地生成整个目标序列的所有词元，从而极大提升生成速度。
非自回归生成的核心动机与挑战：NRG的核心动机是为了解决自回归生成在推理（解码）时固有的序列延迟问题。由于可以并行生成所有位置的词元，NRG的理论解码速度与目标序列长度无关，能实现数十倍的加速。然而，其主要挑战在于如何在没有严格从左到右的依赖关系下，保证生成序列的一致性和高质量。因为词元之间通常存在强依赖（如语法、语义），并行独立预测容易产生重复、缺失或逻辑矛盾的词元。
实现非自回归生成的关键技术：为了克服上述挑战，研究者设计了多种方法让模型在并行生成时能感知词元间的依赖。
- 目标序列长度预测：首先，模型需要先确定要生成的目标序列的长度N，因为需要并行生成N个位置。
- 引入隐变量或外部信息：一种常见策略是引入一个隐变量（Latent Variable） 或利用源序列的丰富表示，来指导所有目标位置的生成。例如，使用一个“编码器”的输出（可能经过某种变换或重复）作为所有解码位置的初始输入。
- 迭代精炼机制：模型不一次性输出最终序列，而是进行多轮迭代。每一轮，模型并行生成一个初步序列，然后将该序列作为输入，在下一轮中对其进行修正和精炼，逐步逼近高质量输出。这模拟了“起草-修改”的过程。
- 条件独立性建模与训练目标：在训练时，NRG模型通常假设在给定源序列和隐变量的条件下，目标序列各位置词元的生成是相互独立的。因此，其训练目标常为基于连接主义时序分类损失或词袋损失，直接最大化目标序列在所有位置上的联合概率。
具体模型架构与变体：典型的非自回归Transformer模型会对标准Transformer解码器进行改造。
- 移除自注意力掩码：最关键的一步是移除解码器中的因果掩码，允许每个位置的生成过程“看到”解码端所有其他位置的信息，从而实现并行计算。
- 位置感知输入：由于解码器输入不再是依次生成的历史，通常会将源序列编码器的输出（或一个可学习的嵌入）复制N份，并与位置编码结合，作为解码器的初始输入。
- 变体举例：如NAT（Non-Autoregressive Translation） 模型直接预测长度并并行生成；LevT（Levenshtein Transformer） 则采用插入和删除的迭代操作进行精炼；CMLM（Conditional Masked Language Model） 则在每一轮迭代中并行预测一组被随机掩码的词元。
应用场景与权衡：NRG最适合对延迟极其敏感且对生成质量有较高容忍度的实时应用场景，例如同声传译、实时语音字幕生成。它清晰地体现了速度与质量之间的权衡：虽然解码速度极快，但在当前技术下，其生成质量（通常以BLEU等指标衡量）在多数复杂任务上仍难以完全匹敌最强的自回归模型。因此，它是推理效率优化技术中的一个重要且活跃的研究方向。

神经网络Transformer架构中的非自回归生成生成方式的基本区分：在序列生成任务（如机器翻译、文本摘要）中，模型生成目标序列的方式主要分为两类。一类是自回归生成，即模型依次逐个预测下一个词元，每一步的预测都依赖于之前所有已生成的词元，如同一个人逐字写作。这种方式准确但顺序执行，速度较慢。另一类则是非自回归生成，其核心思想是打破这种严格的顺序依赖，试图一次性或并行地生成整个目标序列的所有词元，从而极大提升生成速度。非自回归生成的核心动机与挑战：NRG的核心动机是为了解决自回归生成在推理（解码）时固有的序列延迟问题。由于可以并行生成所有位置的词元，NRG的理论解码速度与目标序列长度无关，能实现数十倍的加速。然而，其主要挑战在于如何在没有严格从左到右的依赖关系下，保证生成序列的一致性和高质量。因为词元之间通常存在强依赖（如语法、语义），并行独立预测容易产生重复、缺失或逻辑矛盾的词元。实现非自回归生成的关键技术：为了克服上述挑战，研究者设计了多种方法让模型在并行生成时能感知词元间的依赖。目标序列长度预测：首先，模型需要先确定要生成的目标序列的长度N，因为需要并行生成N个位置。引入隐变量或外部信息：一种常见策略是引入一个隐变量（Latent Variable）或利用源序列的丰富表示，来指导所有目标位置的生成。例如，使用一个“编码器”的输出（可能经过某种变换或重复）作为所有解码位置的初始输入。迭代精炼机制：模型不一次性输出最终序列，而是进行多轮迭代。每一轮，模型并行生成一个初步序列，然后将该序列作为输入，在下一轮中对其进行修正和精炼，逐步逼近高质量输出。这模拟了“起草-修改”的过程。条件独立性建模与训练目标：在训练时，NRG模型通常假设在给定源序列和隐变量的条件下，目标序列各位置词元的生成是相互独立的。因此，其训练目标常为基于连接主义时序分类损失或词袋损失，直接最大化目标序列在所有位置上的联合概率。具体模型架构与变体：典型的非自回归Transformer模型会对标准Transformer解码器进行改造。移除自注意力掩码：最关键的一步是移除解码器中的因果掩码，允许每个位置的生成过程“看到”解码端所有其他位置的信息，从而实现并行计算。位置感知输入：由于解码器输入不再是依次生成的历史，通常会将源序列编码器的输出（或一个可学习的嵌入）复制N份，并与位置编码结合，作为解码器的初始输入。变体举例：如 NAT（Non-Autoregressive Translation）模型直接预测长度并并行生成； LevT（Levenshtein Transformer）则采用插入和删除的迭代操作进行精炼； CMLM（Conditional Masked Language Model）则在每一轮迭代中并行预测一组被随机掩码的词元。应用场景与权衡：NRG最适合对延迟极其敏感且对生成质量有较高容忍度的实时应用场景，例如同声传译、实时语音字幕生成。它清晰地体现了速度与质量之间的权衡：虽然解码速度极快，但在当前技术下，其生成质量（通常以BLEU等指标衡量）在多数复杂任务上仍难以完全匹敌最强的自回归模型。因此，它是推理效率优化技术中的一个重要且活跃的研究方向。