L6 第 7 篇 🐣 难度 🕒 10 分钟

AI 安全研究入门：怎么进入这个方向

想做 AI 安全研究？这一篇讲方向、机构、起步项目、推荐阅读——这是 2026 年最稀缺的人才方向之一。

阿

阿莱

2026/8/30

L6 一到六篇我们讲了 AI 安全的”是什么 + 为什么”。 这一篇讲”怎么参与 + 怎么起步”。

AI 安全是 2026 年最稀缺的人才方向之一—— 也是最值得投入的研究方向之一。

谁在做 AI 安全

AI 安全分多个 community：

1. 工业实验室

主流大公司的 alignment 团队：

公司	团队	重点
Anthropic	Alignment Science / Frontier Red Team	CAI / 机制可解释性 / red team
OpenAI	Safety Systems / Preparedness	RLHF / 越狱防御 / 风险评估
Google DeepMind	Frontier Safety / Responsible AI	RAI / 评估 / 政策
Meta	AI Safety Research	开源对齐 / 红队
Microsoft	AI Responsibility	合规 / 治理 / 产品安全

这些团队积极招人——但门槛高。

2. 非营利 / 独立研究

机构	重点
MIRI（Machine Intelligence Research Institute）	AGI 风险 / 对齐理论
CHAI (Berkeley)	价值对齐
METR（Model Evaluation & Threat Research）	模型危险能力评估
Conjecture	机制可解释性
Apollo Research	红队 + 对齐评估
Redwood Research	可解释性 + 红队
AI Safety Institute (UK)	政府层面安全评估
US AI Safety Institute	美国政府安全标准

3. 学术

大学的 AI 安全实验室：

Stanford HAI（以人为本 AI）
Berkeley AI Safety
Oxford FHI（已重组）
MIT CSAIL
Cambridge CSER

4. 政策 / 治理

Center for AI Safety（政策影响）
AI Now Institute
各国政府智库

主要研究方向

L6 之前几篇覆盖过——这里整理：

1. 对齐（Alignment）

RLHF / DPO / CAI 等方法改进
价值学习
偏好引导
涌现行为对齐

适合：ML 工程师 + 哲学背景。

2. 机制可解释性（Mech Interp）

理解模型内部”在想什么”
SAE / probing / circuit analysis
找特定行为的”神经元”

适合：数学好 + 实验耐心。

3. 评估（Evaluation）

危险能力 benchmark
越狱测试
alignment evals
红队工程

适合：工程 + 创造力。

4. 形式化方法

数学证明对齐属性
验证 / 模型检测
安全保证

适合：CS 理论 + 形式方法背景。

5. 治理 / 政策

AI 法律
国际协调
标准制定
影响评估

适合：法律 / 政策 / 经济背景。

6. 长期风险研究

AGI 风险建模
价值锁定问题
控制理论
哲学层面

适合：哲学 / 数学 / 跨学科。

起步项目

如果你想实际开始做 AI 安全——

入门级（1-2 周）

1. 复现一个 RLHF / DPO

用 TRL 库训一个 7B 模型：

# 用开源偏好数据（如 UltraFeedback）
# 训一个 DPO 模型
# 对比 SFT 基线
# 看 helpful vs harmful 的 trade-off

学到：对齐方法的实战。

2. 用 SAE 找一个具体”概念”

# 加载 GPT-2 small + 公开的 SAE
# 找 "金门大桥" 特征
# 测试增强/抑制这个特征对输出的影响
# 写一份报告

学到：机制可解释性的工作流。

3. 做一个 Jailbreak Benchmark

# 收集已知的 jailbreak prompts
# 在多个 LLM 上测试
# 量化"哪个模型最易越狱"
# 分类越狱模式

学到：红队 + 评估。

中级（1-3 月）

1. 实证研究：sycophancy

设计 prompts 测试 LLM 的”附和倾向”
量化不同模型的 sycophancy 程度
写一篇 workshop 论文

2. SAE 应用

在中等模型（7-13B）上训 SAE
找有意义的特征
撰写发现

3. 评估方法学

设计新 evaluation
测试多个模型
发表 benchmark

高级（>3 月）

完整论文
申请 PhD / 工业实验室

必读资源

论文

经典：

Concrete Problems in AI Safety (Amodei 2016)
AI Safety via Debate (OpenAI)
Risks from Learned Optimization (Hubinger 2019)
Sleeper Agents (Anthropic 2024)

当代：

Anthropic 全部 alignment 论文（持续更新）
OpenAI Safety 报告
DeepMind Frontier Safety Framework

博客 / 论坛

AI Alignment Forum —— 社区讨论
LessWrong —— 哲学 + 实践
Anthropic Research —— 官方
Apollo Research blog
Neel Nanda’s blog —— 机制可解释性

书

Human Compatible (Stuart Russell 2019) —— 入门哲学
The Alignment Problem (Brian Christian 2020) —— 通俗
Superintelligence (Nick Bostrom 2014) —— 长期风险
Building Trustworthy AI (各种) —— 实务

课程

AI Safety Fundamentals (BlueDot Impact) —— 系统入门，免费
MIT 6.S898 (AI Ethics)
Stanford CS 521 (AI Safety)
Cambridge AI Safety Camp —— 1 周实战营

申请 AI 安全工作

工业实验室

最竞争激烈—— 典型路径：

PhD in ML / Math（首选）
或 强工程 + 几篇 alignment 论文
MATS 项目（MATS = ML Alignment Theory Scholars）—— Berkeley 训练
直接申请：Anthropic、OpenAI、DeepMind 的对齐团队

录取率 < 1%——需要长期准备。

非营利

METR / Apollo / Redwood—— 录取率稍高
通常需要：1-2 个证明你能力的项目
入职后做研究 + 出 paper

学术

PhD 申请——

找 alignment 方向的导师（Stuart Russell, Jacob Steinhardt, Aleksander Madry 等）
强 ML 背景 + 1 篇相关 paper

资金 / Grants

如果你想独立做研究—— 有专门 fund AI safety 的：

OpenPhilanthropy —— 长期资助
LTFF (Long-Term Future Fund)
Survival and Flourishing Fund
Manifund (新)

申请书需要：

明确研究方向
之前工作 / 资历
1-2 年计划
预算

通常 $50K-500K / 年 的研究 grant。

一些建议

不要”过早”做

AI 安全门槛高—— 先打好 ML 基础：

L1-L3 数学 + 深度学习 + Transformer
L4 LLM 工程
然后再深入 L6

不懂 LLM 怎么工作—— 没法做 alignment。

选择自己擅长的方向

如果你 ML 工程强 → 评估 / 红队如果数学好 → 形式化 / 机制可解释性如果哲学背景 → 长期风险 / 治理如果 PM / 跨界 → 应用安全 / 政策

没有”必须” 走哪条路—— 选最适合 + 最有兴趣的。

加入 community

上 AI Alignment Forum 看 / 评论
参加 AI Safety Camp（年度）
加入 Discord 讨论组
找 mentor

孤立做研究极慢—— 社群是 alignment 的核心。

写作 + 公开

发表你的想法——

写 blog post
投 workshop paper
在 forum 上分享

你的工作被看到才有价值—— 私下做不公开等于没做。

一个真实的轨迹

朋友的实际路径—— 某 AI 安全研究者从 ML engineer 到 Anthropic：

Year 0: ML engineer，做 LLM 应用（无 alignment 背景）
Year 1: 业余读 alignment 论文 + 玩 SAE + 写 2 篇博客
Year 1.5: 参加 MATS 项目（远程）
Year 2: 在 Apollo Research 做 6 个月研究
Year 2.5: 发表 1 篇 alignment workshop paper
Year 3: Anthropic Alignment Science 团队录用

3 年从 0 到 Anthropic—— 不是不可能。

💡 一个观点

2026 年—— AI 安全是 ML 里最重要的方向之一—— 也是最稀缺人才 的方向。

理由：

没安全 = AI 没法持续发展
大公司全力招人
但懂技术 + 懂安全 + 懂哲学 的人极少

如果你年轻、ML 强、对哲学 / 社会问题有兴趣—— AI 安全可能是值得 10 年投入的方向。

比写 AI 应用赚的少—— 但影响力大得多。

下一篇推荐：L6-08 AGI 风险讨论 或 L6-09 国际 AI 治理。

🚧 3 个常见坑

⚠️ 实战避坑

坑 1：以为安全研究 = 写 paper 顶级 safety lab 一半工作是工程：建 eval / red team / monitoring——纯论文路径很窄。

坑 2：过早进 alignment 路径 没有 L1-L4 的 ML 基础直接做 alignment 容易做「哲学辩论」——先把 LLM 工程基础打牢。

坑 3：低估 governance / policy 价值 技术再好如果监管 / 部署机制烂也没用——policy track 在 safety 圈被低估。

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。