🧠 深度学习 · 10 分钟

Transformer 在"看"哪个词？

每个 token 都会问："句子里哪些其它 token 跟我最相关？" 输入一句话，点击任意一个 token，看它的"注意力光线"指向了哪里。再试试 4 个不同的"头"——它们各自负责不同的语言现象。

输入一句话

试试：

选择注意力头

tokens（点击选择 Query）

注意力矩阵

行 = 查询 (Q) · 列 = 键 (K) · 每行加和 = 1

权重

1.0

选中 Query

—

最关注的 5 个 token：

头的工作描述

…

🧮

数学上发生了什么

每个 token 都有自己的 Q、K、V 三个向量。注意力的计算是：

Attention = softmax(Q·Kᵀ / √d) · V

每一行的权重经 softmax 后加和等于 1——它们是"权重比例"，决定了从其它 token 的 V 那里"取多少信息"。

🎭

为什么需要多头

一个头只能学一种"关注模式"。真实 BERT/GPT 通常有 12–96 个头，并行运行：

· 有的头专门负责语法结构（主谓宾对齐）
· 有的头看远距离依赖（指代消解）
· 有的头追韵脚/重复（诗歌、押韵）
· 有的头其实……什么都没学到（"死头"）

📝 关于演示真实性： 真实 Transformer 的注意力来自训练过的 Q、K、V 矩阵。这里我们用 4 套规则化的"模式函数"替代，让你能看清每种典型注意力的形态。在真实模型里，头的功能是从数据中"涌现"出来的，并不像这里这么干净——但这些模式都确实在已发表的可解释性研究里被观察到过。