神经网络Transformer架构中的词汇表
字数 529 2025-11-21 10:50:35
神经网络Transformer架构中的词汇表
神经网络Transformer架构中的词汇表是一个将输入文本中的单词或子词单元映射到高维向量表示的查找表。它作为模型处理自然语言任务时的基础组件,将离散的符号转换为连续的数值表示,使神经网络能够处理文本数据。
神经网络Transformer架构中的词汇表通常包含以下核心属性:
- 词汇大小:指词汇表中唯一词条的数量,例如常见英语模型可能包含30,000-50,000个词条
- 覆盖范围:包括完整单词、子词单元(如BPE算法生成的片段)或字符级单元
- 特殊标记:包含如[PAD](填充)、[UNK](未知词)、[CLS](分类)、[SEP](分隔符)等功能标记
词汇表的构建过程涉及对训练语料进行统计分析,通过算法如Byte Pair Encoding (BPE)或WordPiece将词汇分解为更小的单元,平衡词汇表大小与未登录词问题。例如,"playing"可能被分解为"play"和"##ing"两个子词单元。
在Transformer架构中,词汇表通过嵌入层与模型连接。每个词汇表条目对应一个可训练的向量,这些向量在模型训练过程中通过梯度下降算法不断调整,最终形成能够捕捉语义和语法关系的分布式表示。