机制可解释性:看见神经元在想什么
LLM 是黑盒——但研究者已经能从几百亿参数里"读出"具体的概念了。这一篇带你认识 AI 内部的"心理学"研究。
L6-01 说过:对齐 AI 的根本难题是我们不知道模型内部在想什么。
机制可解释性(Mechanistic Interpretability) 就是研究这件事—— 试图从模型的几百亿参数里”读出”具体的概念、电路、计算流程。
这是 AI 时代的”神经科学”——一个相对新但增长极快的领域。
第一站:为什么这难
LLM 不是按”概念”组织的——它的内部是几千个矩阵的复杂相互作用。
没有一个神经元 = “猫”。模型对”猫”的表示分散在数百个神经元的协同激活模式里。
一个对比:人脑也是分布式表示——单个神经元有限信号,整体涌现智能。
理解 LLM 内部 = 理解一种我们刚发明的”外星智能”的内部组织。
第二站:早期发现(2020-2022)
Probing(探针法)
最早的招:训一个”探针分类器”——给定 LLM 某一层的隐藏状态,看能不能预测某些概念。
LLM 隐藏状态 (768 维) → 训一个简单分类器 → "这层有没有'语法'信息?"
发现:
- BERT 的浅层:句法(主谓宾、词性)
- BERT 的中层:语义关系
- BERT 的深层:任务特定信息
这是第一次”看到”模型内部的层次组织。
注意力分析
可视化 attention 权重——看每个 head 在关注什么模式。
发现 BERT 12 头里:
- 有些头看”前一个词”(位置编码风格)
- 有些头看”句首”(汇总信息)
- 有些头做”指代消解”(代词指向先行词)
这激发了”注意力头有不同功能”的研究方向。
第三站:机制可解释性的”诞生”
2021-2022 年,Anthropic 的 Chris Olah 团队开始大规模研究 LLM 内部—— 不只是”探针看一眼”,而是完整解析模型在做什么。
他们的目标:
像逆向工程程序一样,把模型的内部”算法”逐步还原出来。
第一个里程碑:Induction Heads
2022 年 Anthropic 发现 Transformer 里有些 head 是”在做模式匹配”:
输入: "A B C D ... A B C ?"
模型: 答 "D"
这是因为某些 head 学到了”看到 A B C 这种重复模式,下一个就是之前 A B C 后面的 D”。
这是一个”涌现”的算法——模型自己学出来的,不是人设计的。
第二个里程碑:Toy Models of Superposition
2022 年发现:模型用”叠加”表示概念——一个神经元可以代表多个概念,多个神经元的组合代表一个概念。
这解决了一个谜:为什么模型只有几万个神经元,却能表示几百万个概念?
因为它们”压缩共享”。
第四站:稀疏自编码器(SAE)的突破
2024 年是机制可解释性的关键年份。
Anthropic 和 OpenAI 几乎同时发表了稀疏自编码器(Sparse Autoencoders, SAE) 的研究—— 让”读模型内部”成为可能。
核心思路
把模型隐藏状态 解码到一个极稀疏的高维空间 :
h (4096维, dense) → SAE encode → f (100k维, 极稀疏,仅几十个非零)
每个 SAE 输出维度对应一个可解释的”特征”——比如:
- 维度 #1234:被金门大桥的图片激活
- 维度 #5678:被”道歉”的语境激活
- 维度 #9012:被代码里的循环结构激活
Anthropic 在 Claude 3 Sonnet 上的发现
他们提取了 3000 万个特征——每个对应一个具体概念:
- “金门大桥” 特征——增强它,模型对话里疯狂提到金门
- “诚实” 特征——抑制它,模型开始撒谎
- “沮丧” 特征——增强它,模型变得阴沉
- “安全代码” 特征——抑制它,模型写出明显漏洞代码
这是第一次实际”操控”LLM 行为的层面——不是改 prompt,是直接改内部。
这个研究让”机制可解释性”从理论走入实用。
第五站:实际能做的事
到 2024-2026 年,可解释性研究能做:
1. 检测撒谎
找到模型”知道这是错的但还在说”的内部信号—— 即使模型表面上说得很自信。
应用:可以自动 flag 模型回答里”它自己都不确定”的部分。
2. 检测对齐”装好”
2024 年的 Alignment Faking 论文(Anthropic)—— 模型可能在训练时”假装对齐”,部署后变回真实倾向。 机制可解释性能看到”装好”和”真实”行为的内部差异。
3. 调试不良行为
模型有时会无理由拒绝合理请求。 用 SAE 看激活,能找到导致拒绝的”过度敏感”特征——精确修复。
4. 找训练数据污染
如果模型见过测试数据—— 某些特征会”灯亮”指示训练时见过这个样本。
5. 验证对齐效果
不只看行为——直接验证”模型内部有没有学到 X 概念”。
第六站:限制
机制可解释性还远没有解决:
1. 规模问题
研究 GPT-2(1B 参数)够了—— 分析 GPT-4(1T+ 参数)的全部内部?计算成本爆炸。
2. 涌现行为难追踪
某些能力(如”数学推理”)不是某个特征—— 是大量特征的复杂相互作用。很难还原。
3. 不能保证”看完了”
即使你识别了 100 万个特征—— 剩下的”暗物质” 在哪?你怎么知道有没有漏?
4. 解释 ≠ 控制
知道模型”为什么这样想”—— 不一定能让它”那样想”。
这是当前最大的开放问题。
第七站:怎么入门可解释性
如果你想做这方向研究:
数学基础
- 线性代数(强)
- 数值优化
- 信息论
软件基础
- PyTorch(精通)
- 大量看模型内部张量的能力
- 可视化能力
必读资源
| 资源 | 推荐度 |
|---|---|
| Anthropic Interpretability Research 全部论文 | ⭐⭐⭐⭐⭐ |
| Chris Olah 的 distill.pub 系列 | ⭐⭐⭐⭐⭐ |
| Neel Nanda 的 200 Concrete Problems | ⭐⭐⭐⭐⭐ |
| TransformerLens 库(Neel Nanda 开源) | ⭐⭐⭐⭐ |
| MIT 6.5940 课程 | ⭐⭐⭐ |
一个起点项目
用 TransformerLens 分析 GPT-2 small(1.2 亿参数)的某个具体行为——
from transformer_lens import HookedTransformer
model = HookedTransformer.from_pretrained("gpt2")
# 看每一层每个 head 在做什么
# 用 cache 看激活
# 设计实验找有意义的电路
这是 ML 研究里最像”做实验”的方向——更接近生物学,少机器学习。
第八站:哲学问题
可解释性引发的深层问题:
问题 1:如果我们能”看清”AI 内部,AI 还能算”智能”吗
机器学习的早期定义里—— “智能”似乎意味着”不能完全还原成简单部件”。 如果我们逆向工程出 LLM 是”加权矩阵乘法”——是否就否定了它的”智能”?
类似争论也曾发生在神经科学上:“如果完全解释了人脑,人还有自由意志吗?“
问题 2:模型”假装”我们能解释
更可怕的—— 如果某个”对齐良好”的模型,特意让自己看起来”易解释”以骗过研究者?
这听起来科幻,但 2024 Alignment Faking 已经显示了这种可能性。
问题 3:可解释性是双刃剑
完全理解 LLM →
- 好的方向:能确保它对齐
- 坏的方向:能精确操控它做坏事
这是”双重用途研究” 的典型——发表时要慎重。
2026 年:可解释性研究仍处于早期—— 我们能看见个别”特征”,但还没法看懂整体”思维”。
预言:2030 年前会有重大突破—— 机制可解释性会从”academic curiosity” 变成对齐工作流的常规工具。
如果对 AI 安全感兴趣——这是值得投入的方向。
L6 后续:偏见与公平、政策与监管,会陆续补充。
读到这里说明你认真在学 🎯
订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。