神经网络Transformer架构中的多语言词嵌入对齐
-
词嵌入基础:词嵌入是将词汇映射到固定维度连续向量空间的技术。在自然语言处理中,它使机器能通过向量运算近似语义关系。单语嵌入模型(如Word2Vec)在单一语言语料上训练,每个语言会形成独立的向量空间,不同语言空间之间没有直接对应关系。
-
多语言词嵌入的挑战:为了让一个模型处理多种语言,我们需要将不同语言的词汇映射到一个共享的语义空间。核心挑战是,不同语言的词汇在形态、句法和语序上差异巨大,即使含义相同,其单语词向量的方向和位置也完全不同,无法直接比较或混合。
-
对齐的目标与方法概览:多语言词嵌入对齐的目标是学习一个映射函数或一个统一模型,使得不同语言中语义等价的词(如“apple”和“苹果”)在共享向量空间中的位置非常接近。主要方法分为两大类:有监督对齐(利用双语词典作为锚点)和无监督/自监督对齐(不依赖平行数据,利用单语分布相似性或对抗学习)。
-
有监督对齐(基于映射的方法):这是较早期且直观的方法。假设我们已有两个预先训练好的单语词向量空间(如英语和中文),以及一个规模较小的双语词典(锚点词对)。目标是学习一个线性变换矩阵W,使得在锚点词对上,将源语言词向量映射后与目标语言词向量的距离最小化(例如使用均方误差)。优化后,矩阵W可用于将整个源语言向量空间“旋转”到与目标语言空间对齐。这种方法依赖于高质量双语词典,且通常假设映射是线性的。
-
无监督/自监督对齐:当缺乏双语词典时,需要更智能的方法。一种常见思路基于跨语言分布相似性假设:在不同语言中,语义相似的词,其周围出现的词(上下文)的分布也相似。方法包括:
- 对抗训练:训练一个生成器(即映射矩阵)和一个判别器。生成器试图将两种语言的词向量映射到同一空间,使判别器无法区分向量来自哪种语言;判别器则尽力区分。通过对抗博弈,最终学习到对齐的共享空间。
- 自学习迭代:首先通过一些初始弱信号(如相同字符串的数字、名称或通过机器翻译得到的粗糙词典)建立初步对齐。然后,在这个初步对齐的空间里,基于最近邻寻找更多高置信度的词对作为新“锚点”,迭代优化映射函数,逐步扩大对齐词汇表。
-
Transformer架构中的预训练对齐(上下文嵌入对齐):现代多语言Transformer模型(如mBERT、XLM、XLM-R)采用更根本的方法。它们在预训练阶段就设计目标,促使模型直接学习跨语言对齐的上下文词表示。关键技术包括:
- 多语言掩码语言建模:将多种语言的语料混合在一起,随机遮盖单词并进行预测。模型被迫从跨语言的上下文中学习,从而隐式地将不同语言中对等的概念关联起来。
- 翻译语言建模:提供平行句对,随机遮盖其中一个句子中的单词,要求模型根据另一种语言的完整句子来预测被遮盖的词。这直接建立了跨语言的词语级对应关系。
- 共享词汇表/子词:使用跨语言的共享子词词汇表,使不同语言中形态或语义相近的词可能共享子词单元,为对齐提供了底层桥梁。
-
对齐的评估与应用:评估多语言词嵌入对齐质量的常用任务是双语词典归纳和跨语言词相似度计算。良好的对齐是实现高质量零样本跨语言迁移的基础,例如:在英语数据上微调的多语言模型,可以直接在法语、中文等语言上执行文本分类、命名实体识别等任务,而无需目标语言的标注数据。这是多语言自然语言处理应用(如多语言搜索、客服、内容审核)的核心支撑技术之一。