HelloAI ← 可视化画廊
🦅 大模型 · 7 分钟

词在向量空间的"位置"

LLM 不直接看词,它看 embedding——把每个词编码成一个数百维的向量。 意思相近的词,向量会"挤在一起"。试试经典的 king − man + woman = ?

显示类别:
🖱 拖动平移 · 滚轮缩放 · 点击词查看邻居
维度:300 → 2 (t-SNE)
✨ 词向量算术
+ =
试试:
选中的词
最相似的 5 个邻居(余弦相似度):
这是什么

每个词都被映射成一个高维向量(这里是 300 维)。 语义相近的词,向量也相近。 我们用 t-SNE 把 300 维压到 2 维,让你能"看"。

关键洞察
  • · 同类词会形成"星团"
  • · 方向 编码了关系(性别、单复数、时态)
  • · 词向量算术 = 沿方向平移
🧠

为什么"king − man + woman ≈ queen"

训练时模型从大量文本里观察到: kingqueen 出现在相似的句式里, manwoman 也是。

所以"国王 → 王后"和"男 → 女"在向量空间里是**同一个方向**——这条"性别向量"被编码进了表示。 模型并没有被告知"性别",但它从语料里自己悟出来了。

⚠️

现实中的"偏见"也藏在这里

训练语料里,programmer − man + woman 历史上往往得到 homemaker(家庭主妇)——因为语料的统计就是这样。

这就是为什么"模型对齐 & 去偏见"是 AI 安全里非常关键的话题。一个看起来很数学的向量空间,其实承载了人类社会的全部偏见。

📝 关于本演示: 此页面包含 50 个高频英文词,向量坐标基于真实 Word2Vec / GloVe 模型的 t-SNE 投影做了简化与重排,保留了类别聚类和主要方向关系(性别、国家-首都等)。真实模型有 30 万+词、300+维度,关系更丰富。