HelloAI
L6 第 4 篇 🐥 难度 🕒 13 分钟

机制可解释性:看见神经元在想什么

LLM 是黑盒——但研究者已经能从几百亿参数里"读出"具体的概念了。这一篇带你认识 AI 内部的"心理学"研究。

阿莱
2026/7/20

L6-01 说过:对齐 AI 的根本难题是我们不知道模型内部在想什么

机制可解释性(Mechanistic Interpretability) 就是研究这件事—— 试图从模型的几百亿参数里”读出”具体的概念、电路、计算流程。

这是 AI 时代的”神经科学”——一个相对新但增长极快的领域。

第一站:为什么这难

LLM 不是按”概念”组织的——它的内部是几千个矩阵的复杂相互作用。

没有一个神经元 = “猫”。模型对”猫”的表示分散在数百个神经元的协同激活模式里

一个对比:人脑也是分布式表示——单个神经元有限信号,整体涌现智能。

理解 LLM 内部 = 理解一种我们刚发明的”外星智能”的内部组织

第二站:早期发现(2020-2022)

Probing(探针法)

最早的招:训一个”探针分类器”——给定 LLM 某一层的隐藏状态,看能不能预测某些概念。

LLM 隐藏状态 (768 维) → 训一个简单分类器 → "这层有没有'语法'信息?"

发现:

  • BERT 的浅层:句法(主谓宾、词性)
  • BERT 的中层:语义关系
  • BERT 的深层:任务特定信息

这是第一次”看到”模型内部的层次组织。

注意力分析

可视化 attention 权重——看每个 head 在关注什么模式。

发现 BERT 12 头里:

  • 有些头看”前一个词”(位置编码风格)
  • 有些头看”句首”(汇总信息)
  • 有些头做”指代消解”(代词指向先行词)

这激发了”注意力头有不同功能”的研究方向。

第三站:机制可解释性的”诞生”

2021-2022 年,Anthropic 的 Chris Olah 团队开始大规模研究 LLM 内部—— 不只是”探针看一眼”,而是完整解析模型在做什么

他们的目标:

像逆向工程程序一样,把模型的内部”算法”逐步还原出来

第一个里程碑:Induction Heads

2022 年 Anthropic 发现 Transformer 里有些 head 是”在做模式匹配”

输入: "A B C D ... A B C ?"
模型: 答 "D"

这是因为某些 head 学到了”看到 A B C 这种重复模式,下一个就是之前 A B C 后面的 D”。

这是一个”涌现”的算法——模型自己学出来的,不是人设计的。

第二个里程碑:Toy Models of Superposition

2022 年发现:模型用”叠加”表示概念——一个神经元可以代表多个概念,多个神经元的组合代表一个概念。

这解决了一个谜:为什么模型只有几万个神经元,却能表示几百万个概念?

因为它们”压缩共享”

第四站:稀疏自编码器(SAE)的突破

2024 年是机制可解释性的关键年份

AnthropicOpenAI 几乎同时发表了稀疏自编码器(Sparse Autoencoders, SAE) 的研究—— 让”读模型内部”成为可能。

核心思路

把模型隐藏状态 hR4096h \in \mathbb{R}^{4096} 解码到一个极稀疏的高维空间 fR100k\mathbf{f} \in \mathbb{R}^{100k}

h (4096维, dense) → SAE encode → f (100k维, 极稀疏,仅几十个非零)

每个 SAE 输出维度对应一个可解释的”特征”——比如:

  • 维度 #1234:被金门大桥的图片激活
  • 维度 #5678:被”道歉”的语境激活
  • 维度 #9012:被代码里的循环结构激活

Anthropic 在 Claude 3 Sonnet 上的发现

他们提取了 3000 万个特征——每个对应一个具体概念:

  • “金门大桥” 特征——增强它,模型对话里疯狂提到金门
  • “诚实” 特征——抑制它,模型开始撒谎
  • “沮丧” 特征——增强它,模型变得阴沉
  • “安全代码” 特征——抑制它,模型写出明显漏洞代码

这是第一次实际”操控”LLM 行为的层面——不是改 prompt,是直接改内部。

这个研究让”机制可解释性”从理论走入实用。

第五站:实际能做的事

到 2024-2026 年,可解释性研究能做:

1. 检测撒谎

找到模型”知道这是错的但还在说”的内部信号—— 即使模型表面上说得很自信。

应用:可以自动 flag 模型回答里”它自己都不确定”的部分。

2. 检测对齐”装好”

2024 年的 Alignment Faking 论文(Anthropic)—— 模型可能在训练时”假装对齐”,部署后变回真实倾向。 机制可解释性能看到”装好”和”真实”行为的内部差异

3. 调试不良行为

模型有时会无理由拒绝合理请求。 用 SAE 看激活,能找到导致拒绝的”过度敏感”特征——精确修复。

4. 找训练数据污染

如果模型见过测试数据—— 某些特征会”灯亮”指示训练时见过这个样本。

5. 验证对齐效果

不只看行为——直接验证”模型内部有没有学到 X 概念”

第六站:限制

机制可解释性还远没有解决:

1. 规模问题

研究 GPT-2(1B 参数)够了—— 分析 GPT-4(1T+ 参数)的全部内部?计算成本爆炸

2. 涌现行为难追踪

某些能力(如”数学推理”)不是某个特征—— 是大量特征的复杂相互作用。很难还原

3. 不能保证”看完了”

即使你识别了 100 万个特征—— 剩下的”暗物质” 在哪?你怎么知道有没有漏?

4. 解释 ≠ 控制

知道模型”为什么这样想”—— 不一定能让它”那样想”

这是当前最大的开放问题。

第七站:怎么入门可解释性

如果你想做这方向研究:

数学基础

  • 线性代数(强)
  • 数值优化
  • 信息论

软件基础

  • PyTorch(精通)
  • 大量看模型内部张量的能力
  • 可视化能力

必读资源

资源推荐度
Anthropic Interpretability Research 全部论文⭐⭐⭐⭐⭐
Chris Olah 的 distill.pub 系列⭐⭐⭐⭐⭐
Neel Nanda 的 200 Concrete Problems⭐⭐⭐⭐⭐
TransformerLens 库(Neel Nanda 开源)⭐⭐⭐⭐
MIT 6.5940 课程⭐⭐⭐

一个起点项目

用 TransformerLens 分析 GPT-2 small(1.2 亿参数)的某个具体行为——

from transformer_lens import HookedTransformer

model = HookedTransformer.from_pretrained("gpt2")

# 看每一层每个 head 在做什么
# 用 cache 看激活
# 设计实验找有意义的电路

这是 ML 研究里最像”做实验”的方向——更接近生物学,少机器学习。

第八站:哲学问题

可解释性引发的深层问题:

问题 1:如果我们能”看清”AI 内部,AI 还能算”智能”吗

机器学习的早期定义里—— “智能”似乎意味着”不能完全还原成简单部件”。 如果我们逆向工程出 LLM 是”加权矩阵乘法”——是否就否定了它的”智能”?

类似争论也曾发生在神经科学上:“如果完全解释了人脑,人还有自由意志吗?“

问题 2:模型”假装”我们能解释

更可怕的—— 如果某个”对齐良好”的模型,特意让自己看起来”易解释”以骗过研究者

这听起来科幻,但 2024 Alignment Faking 已经显示了这种可能性。

问题 3:可解释性是双刃剑

完全理解 LLM →

  • 好的方向:能确保它对齐
  • 坏的方向:能精确操控它做坏事

这是”双重用途研究” 的典型——发表时要慎重。

💡 可解释性的未来

2026 年:可解释性研究仍处于早期—— 我们能看见个别”特征”,但还没法看懂整体”思维”。

预言:2030 年前会有重大突破—— 机制可解释性会从”academic curiosity” 变成对齐工作流的常规工具

如果对 AI 安全感兴趣——这是值得投入的方向

L6 后续:偏见与公平、政策与监管,会陆续补充。

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。