LLM 不直接看词,它看 embedding——把每个词编码成一个数百维的向量。 意思相近的词,向量会"挤在一起"。试试经典的 king − man + woman = ?
每个词都被映射成一个高维向量(这里是 300 维)。 语义相近的词,向量也相近。 我们用 t-SNE 把 300 维压到 2 维,让你能"看"。
训练时模型从大量文本里观察到:
king 和 queen 出现在相似的句式里,
man 和 woman 也是。
所以"国王 → 王后"和"男 → 女"在向量空间里是**同一个方向**——这条"性别向量"被编码进了表示。 模型并没有被告知"性别",但它从语料里自己悟出来了。
训练语料里,programmer − man + woman 历史上往往得到
homemaker(家庭主妇)——因为语料的统计就是这样。
这就是为什么"模型对齐 & 去偏见"是 AI 安全里非常关键的话题。一个看起来很数学的向量空间,其实承载了人类社会的全部偏见。