HelloAI ← 可视化画廊
🧠 深度学习 · 10 分钟

Transformer 在"看"哪个词?

每个 token 都会问:"句子里哪些其它 token 跟我最相关?" 输入一句话,点击任意一个 token, 看它的"注意力光线"指向了哪里。再试试 4 个不同的""——它们各自负责不同的语言现象。

试试:
选择注意力头
tokens(点击选择 Query)
注意力矩阵
行 = 查询 (Q) · 列 = 键 (K) · 每行加和 = 1
权重
1.0
选中 Query
最关注的 5 个 token:
头的工作描述
🧮

数学上发生了什么

每个 token 都有自己的 Q、K、V 三个向量。注意力的计算是:

Attention = softmax(Q·Kᵀ / √d) · V

每一行的权重经 softmax 后加和等于 1——它们是"权重比例",决定了从其它 token 的 V 那里"取多少信息"。

🎭

为什么需要多头

一个头只能学一种"关注模式"。真实 BERT/GPT 通常有 12–96 个头,并行运行:

  • · 有的头专门负责语法结构(主谓宾对齐)
  • · 有的头看远距离依赖(指代消解)
  • · 有的头追韵脚/重复(诗歌、押韵)
  • · 有的头其实……什么都没学到("死头")
📝 关于演示真实性: 真实 Transformer 的注意力来自训练过的 Q、K、V 矩阵。这里我们用 4 套规则化的"模式函数"替代,让你能看清每种典型注意力的形态。在真实模型里,头的功能是从数据中"涌现"出来的,并不像这里这么干净——但这些模式都确实在已发表的可解释性研究里被观察到过。