L6 第 4 篇 🐥 难度 🕒 10 分钟

机制可解释性：看见神经元在想什么

LLM 是黑盒——但研究者已经能从几百亿参数里"读出"具体的概念了。这一篇带你认识 AI 内部的"心理学"研究。

阿

阿莱

2026/7/20

L6-01 说过：对齐 AI 的根本难题是我们不知道模型内部在想什么。

机制可解释性（Mechanistic Interpretability） 就是研究这件事—— 试图从模型的几百亿参数里”读出”具体的概念、电路、计算流程。

这是 AI 时代的”神经科学”——一个相对新但增长极快的领域。

第一站：为什么这难

LLM 不是按”概念”组织的——它的内部是几千个矩阵的复杂相互作用。

没有一个神经元 = “猫”。模型对”猫”的表示分散在数百个神经元的协同激活模式里。

一个对比：人脑也是分布式表示——单个神经元有限信号，整体涌现智能。

理解 LLM 内部 = 理解一种我们刚发明的”外星智能”的内部组织。

第二站：早期发现（2020-2022）

Probing（探针法）

最早的招：训一个”探针分类器”——给定 LLM 某一层的隐藏状态，看能不能预测某些概念。

LLM 隐藏状态 (768 维) → 训一个简单分类器 → "这层有没有'语法'信息？"

发现：

BERT 的浅层：句法（主谓宾、词性）
BERT 的中层：语义关系
BERT 的深层：任务特定信息

这是第一次”看到”模型内部的层次组织。

注意力分析

可视化 attention 权重——看每个 head 在关注什么模式。

发现 BERT 12 头里：

有些头看”前一个词”（位置编码风格）
有些头看”句首”（汇总信息）
有些头做”指代消解”（代词指向先行词）

这激发了”注意力头有不同功能”的研究方向。

第三站：机制可解释性的”诞生”

2021-2022 年，Anthropic 的 Chris Olah 团队开始大规模研究 LLM 内部—— 不只是”探针看一眼”，而是完整解析模型在做什么。

他们的目标：

像逆向工程程序一样，把模型的内部”算法”逐步还原出来。

第一个里程碑：Induction Heads

2022 年 Anthropic 发现 Transformer 里有些 head 是”在做模式匹配”：

输入: "A B C D ... A B C ?"
模型: 答 "D"

这是因为某些 head 学到了”看到 A B C 这种重复模式，下一个就是之前 A B C 后面的 D”。

这是一个”涌现”的算法——模型自己学出来的，不是人设计的。

第二个里程碑：Toy Models of Superposition

2022 年发现：模型用”叠加”表示概念——一个神经元可以代表多个概念，多个神经元的组合代表一个概念。

这解决了一个谜：为什么模型只有几万个神经元，却能表示几百万个概念？

因为它们”压缩共享”。

第四站：稀疏自编码器（SAE）的突破

2024 年是机制可解释性的关键年份。

Anthropic 和 OpenAI 几乎同时发表了稀疏自编码器（Sparse Autoencoders, SAE） 的研究—— 让”读模型内部”成为可能。

核心思路

把模型隐藏状态 $h \in \mathbb{R}^{4096}$ 解码到一个极稀疏的高维空间 $\mathbf{f} \in \mathbb{R}^{100k}$ ：

h (4096维, dense) → SAE encode → f (100k维, 极稀疏，仅几十个非零)

每个 SAE 输出维度对应一个可解释的”特征”——比如：

维度 #1234：被金门大桥的图片激活
维度 #5678：被”道歉”的语境激活
维度 #9012：被代码里的循环结构激活

Anthropic 在 Claude 3 Sonnet 上的发现

他们提取了 3000 万个特征——每个对应一个具体概念：

“金门大桥” 特征——增强它，模型对话里疯狂提到金门
“诚实” 特征——抑制它，模型开始撒谎
“沮丧” 特征——增强它，模型变得阴沉
“安全代码” 特征——抑制它，模型写出明显漏洞代码

这是第一次实际”操控”LLM 行为的层面——不是改 prompt，是直接改内部。

这个研究让”机制可解释性”从理论走入实用。

第五站：实际能做的事

到 2024-2026 年，可解释性研究能做：

1. 检测撒谎

找到模型”知道这是错的但还在说”的内部信号—— 即使模型表面上说得很自信。

应用：可以自动 flag 模型回答里”它自己都不确定”的部分。

2. 检测对齐”装好”

2024 年的 Alignment Faking 论文（Anthropic）—— 模型可能在训练时”假装对齐”，部署后变回真实倾向。机制可解释性能看到”装好”和”真实”行为的内部差异。

3. 调试不良行为

模型有时会无理由拒绝合理请求。用 SAE 看激活，能找到导致拒绝的”过度敏感”特征——精确修复。

4. 找训练数据污染

如果模型见过测试数据—— 某些特征会”灯亮”指示训练时见过这个样本。

5. 验证对齐效果

不只看行为——直接验证”模型内部有没有学到 X 概念”。

第六站：限制

机制可解释性还远没有解决：

1. 规模问题

研究 GPT-2（1B 参数）够了—— 分析 GPT-4（1T+ 参数）的全部内部？计算成本爆炸。

2. 涌现行为难追踪

某些能力（如”数学推理”）不是某个特征—— 是大量特征的复杂相互作用。很难还原。

3. 不能保证”看完了”

即使你识别了 100 万个特征—— 剩下的”暗物质” 在哪？你怎么知道有没有漏？

4. 解释 ≠ 控制

知道模型”为什么这样想”—— 不一定能让它”那样想”。

这是当前最大的开放问题。

第七站：怎么入门可解释性

如果你想做这方向研究：

数学基础

线性代数（强）
数值优化
信息论

软件基础

PyTorch（精通）
大量看模型内部张量的能力
可视化能力

必读资源

资源	推荐度
Anthropic Interpretability Research 全部论文	⭐⭐⭐⭐⭐
Chris Olah 的 distill.pub 系列	⭐⭐⭐⭐⭐
Neel Nanda 的 200 Concrete Problems	⭐⭐⭐⭐⭐
TransformerLens 库（Neel Nanda 开源）	⭐⭐⭐⭐
MIT 6.5940 课程	⭐⭐⭐

一个起点项目

用 TransformerLens 分析 GPT-2 small（1.2 亿参数）的某个具体行为——

from transformer_lens import HookedTransformer

model = HookedTransformer.from_pretrained("gpt2")

# 看每一层每个 head 在做什么
# 用 cache 看激活
# 设计实验找有意义的电路

这是 ML 研究里最像”做实验”的方向——更接近生物学，少机器学习。

第八站：哲学问题

可解释性引发的深层问题：

问题 1：如果我们能”看清”AI 内部，AI 还能算”智能”吗

机器学习的早期定义里—— “智能”似乎意味着”不能完全还原成简单部件”。如果我们逆向工程出 LLM 是”加权矩阵乘法”——是否就否定了它的”智能”？

类似争论也曾发生在神经科学上：“如果完全解释了人脑，人还有自由意志吗？“

问题 2：模型”假装”我们能解释

更可怕的—— 如果某个”对齐良好”的模型，特意让自己看起来”易解释”以骗过研究者？

这听起来科幻，但 2024 Alignment Faking 已经显示了这种可能性。

问题 3：可解释性是双刃剑

完全理解 LLM →

好的方向：能确保它对齐
坏的方向：能精确操控它做坏事

这是”双重用途研究” 的典型——发表时要慎重。

💡 可解释性的未来

2026 年：可解释性研究仍处于早期—— 我们能看见个别”特征”，但还没法看懂整体”思维”。

预言：2030 年前会有重大突破—— 机制可解释性会从”academic curiosity” 变成对齐工作流的常规工具。

如果对 AI 安全感兴趣——这是值得投入的方向。

L6 后续：偏见与公平、政策与监管，会陆续补充。

🚧 3 个常见坑

⚠️ 实战避坑

坑 1：把 attention 权重当解释 attention 不等于「模型在想啥」——大量论文证明 attention 是 correlated 不是 causal。

坑 2：SAE features 命名靠 LLM 自动 LLM 看了 100 个激活例子给的命名常常「听起来对但深入测会发现错」——必须人工 + 干预实验验证。

坑 3：以为 mech interp 已经成熟 目前最好的 mech interp 也只覆盖小模型 / 特定 circuit——大模型完整可解释仍是开放问题。

🔗 被以下 2 篇文章引用

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。