Transformer模型中专业名词

1.词元(Token)

是输入文本经过分词后的离散符号,表示模型处理的最小单位。

  • 定义:词元是输入文本经过 分词(Tokenization) 后得到的基本单位。它可以是单词、子词(Subword)或字符,具体取决于使用的分词方法。

  • 作用:词元是模型处理的最小单位,用于将文本转换为模型可以理解的离散符号。

  • 示例

    • 对于句子 "I love NLP.",使用空格分词后,词元可能是 ["I", "love", "NLP", "."]
    • 使用子词分词(如 BPE)后,词元可能是 ["I", "love", "NL", "##P", "."]

2.词向量(Word Embedding)

是词元经过嵌入层后的连续向量表示,用于捕捉词元的语义信息。

image-20250323113236973

  • 作用:词向量将离散的词元转换为连续的数值表示,便于模型进行计算和学习。

  • 示例

    • 假设词元 "love" 被映射到一个 3 维向量空间,其词向量可能是 [0.2, 0.8, -0.3]
    • 词向量通常是通过预训练(如 Word2Vec、GloVe)或模型训练(如 Transformer)得到的。
  • 词元与词向量的关系

    • 输入与输出
      • 词元是模型的输入,表示文本的离散符号。
      • 词向量是词元经过嵌入层(Embedding Layer)后的输出,表示词元的连续向量表示。
    • 转换过程
      • 在 Transformer 中,输入文本首先被分词为词元。
      • 然后,词元通过嵌入层被转换为词向量。
      • 之后词向量作为模型的输入,参与后续的计算(如自注意力机制)。
  • 示例

    假设输入句子为 "I love NLP."

    • 词元化

      • 分词结果为 ["I", "love", "NLP", "."]
    • 词向量化

      每个词元被映射为一个词向量,例如:

      • "I"[0.1, 0.3, -0.2]

      • "love"[0.2, 0.8, -0.3]

      • "NLP"[0.4, -0.1, 0.5]

      • "."[-0.1, 0.0, 0.1]

3.旋转矩阵等相关

旋转矩阵、索引为i的旋转矩阵、索引为i的旋转矩阵与索引为j的旋转矩阵转置相乘?


Transformer模型中专业名词
https://jiangsanyin.github.io/2025/03/22/Transformer模型中专业名词/
作者
sanyinjiang
发布于
2025年3月22日
许可协议