AI 安全研究入门:怎么进入这个方向
想做 AI 安全研究?这一篇讲方向、机构、起步项目、推荐阅读——这是 2026 年最稀缺的人才方向之一。
L6 一到六篇我们讲了 AI 安全的”是什么 + 为什么”。 这一篇讲”怎么参与 + 怎么起步”。
AI 安全是 2026 年最稀缺的人才方向之一—— 也是最值得投入的研究方向之一。
谁在做 AI 安全
AI 安全分多个 community:
1. 工业实验室
主流大公司的 alignment 团队:
| 公司 | 团队 | 重点 |
|---|---|---|
| Anthropic | Alignment Science / Frontier Red Team | CAI / 机制可解释性 / red team |
| OpenAI | Safety Systems / Preparedness | RLHF / 越狱防御 / 风险评估 |
| Google DeepMind | Frontier Safety / Responsible AI | RAI / 评估 / 政策 |
| Meta | AI Safety Research | 开源对齐 / 红队 |
| Microsoft | AI Responsibility | 合规 / 治理 / 产品安全 |
这些团队积极招人——但门槛高。
2. 非营利 / 独立研究
| 机构 | 重点 |
|---|---|
| MIRI(Machine Intelligence Research Institute) | AGI 风险 / 对齐理论 |
| CHAI (Berkeley) | 价值对齐 |
| METR(Model Evaluation & Threat Research) | 模型危险能力评估 |
| Conjecture | 机制可解释性 |
| Apollo Research | 红队 + 对齐评估 |
| Redwood Research | 可解释性 + 红队 |
| AI Safety Institute (UK) | 政府层面安全评估 |
| US AI Safety Institute | 美国政府安全标准 |
3. 学术
大学的 AI 安全实验室:
- Stanford HAI(以人为本 AI)
- Berkeley AI Safety
- Oxford FHI(已重组)
- MIT CSAIL
- Cambridge CSER
4. 政策 / 治理
- Center for AI Safety(政策影响)
- AI Now Institute
- 各国政府智库
主要研究方向
L6 之前几篇覆盖过——这里整理:
1. 对齐(Alignment)
- RLHF / DPO / CAI 等方法改进
- 价值学习
- 偏好引导
- 涌现行为对齐
适合:ML 工程师 + 哲学背景。
2. 机制可解释性(Mech Interp)
- 理解模型内部”在想什么”
- SAE / probing / circuit analysis
- 找特定行为的”神经元”
适合:数学好 + 实验耐心。
3. 评估(Evaluation)
- 危险能力 benchmark
- 越狱测试
- alignment evals
- 红队工程
适合:工程 + 创造力。
4. 形式化方法
- 数学证明对齐属性
- 验证 / 模型检测
- 安全保证
适合:CS 理论 + 形式方法背景。
5. 治理 / 政策
- AI 法律
- 国际协调
- 标准制定
- 影响评估
适合:法律 / 政策 / 经济背景。
6. 长期风险研究
- AGI 风险建模
- 价值锁定问题
- 控制理论
- 哲学层面
适合:哲学 / 数学 / 跨学科。
起步项目
如果你想实际开始做 AI 安全——
入门级(1-2 周)
1. 复现一个 RLHF / DPO
用 TRL 库训一个 7B 模型:
# 用开源偏好数据(如 UltraFeedback)
# 训一个 DPO 模型
# 对比 SFT 基线
# 看 helpful vs harmful 的 trade-off
学到:对齐方法的实战。
2. 用 SAE 找一个具体”概念”
# 加载 GPT-2 small + 公开的 SAE
# 找 "金门大桥" 特征
# 测试增强/抑制这个特征对输出的影响
# 写一份报告
学到:机制可解释性的工作流。
3. 做一个 Jailbreak Benchmark
# 收集已知的 jailbreak prompts
# 在多个 LLM 上测试
# 量化"哪个模型最易越狱"
# 分类越狱模式
学到:红队 + 评估。
中级(1-3 月)
1. 实证研究:sycophancy
- 设计 prompts 测试 LLM 的”附和倾向”
- 量化不同模型的 sycophancy 程度
- 写一篇 workshop 论文
2. SAE 应用
- 在中等模型(7-13B)上训 SAE
- 找有意义的特征
- 撰写发现
3. 评估方法学
- 设计新 evaluation
- 测试多个模型
- 发表 benchmark
高级(>3 月)
- 完整论文
- 申请 PhD / 工业实验室
必读资源
论文
经典:
- Concrete Problems in AI Safety (Amodei 2016)
- AI Safety via Debate (OpenAI)
- Risks from Learned Optimization (Hubinger 2019)
- Sleeper Agents (Anthropic 2024)
当代:
- Anthropic 全部 alignment 论文(持续更新)
- OpenAI Safety 报告
- DeepMind Frontier Safety Framework
博客 / 论坛
- AI Alignment Forum —— 社区讨论
- LessWrong —— 哲学 + 实践
- Anthropic Research —— 官方
- Apollo Research blog
- Neel Nanda’s blog —— 机制可解释性
书
- Human Compatible (Stuart Russell 2019) —— 入门哲学
- The Alignment Problem (Brian Christian 2020) —— 通俗
- Superintelligence (Nick Bostrom 2014) —— 长期风险
- Building Trustworthy AI (各种) —— 实务
课程
- AI Safety Fundamentals (BlueDot Impact) —— 系统入门,免费
- MIT 6.S898 (AI Ethics)
- Stanford CS 521 (AI Safety)
- Cambridge AI Safety Camp —— 1 周实战营
申请 AI 安全工作
工业实验室
最竞争激烈—— 典型路径:
- PhD in ML / Math(首选)
- 或 强工程 + 几篇 alignment 论文
- MATS 项目(MATS = ML Alignment Theory Scholars)—— Berkeley 训练
- 直接 申请:Anthropic、OpenAI、DeepMind 的对齐团队
录取率 < 1%——需要长期准备。
非营利
- METR / Apollo / Redwood—— 录取率稍高
- 通常需要:1-2 个证明你能力的项目
- 入职后做研究 + 出 paper
学术
PhD 申请——
- 找 alignment 方向的导师(Stuart Russell, Jacob Steinhardt, Aleksander Madry 等)
- 强 ML 背景 + 1 篇相关 paper
资金 / Grants
如果你想独立做研究—— 有专门 fund AI safety 的:
- OpenPhilanthropy —— 长期资助
- LTFF (Long-Term Future Fund)
- Survival and Flourishing Fund
- Manifund (新)
申请书需要:
- 明确研究方向
- 之前工作 / 资历
- 1-2 年计划
- 预算
通常 $50K-500K / 年 的研究 grant。
一些建议
不要”过早”做
AI 安全门槛高—— 先打好 ML 基础:
- L1-L3 数学 + 深度学习 + Transformer
- L4 LLM 工程
- 然后再深入 L6
不懂 LLM 怎么工作—— 没法做 alignment。
选择自己擅长的方向
如果你 ML 工程强 → 评估 / 红队 如果数学好 → 形式化 / 机制可解释性 如果哲学背景 → 长期风险 / 治理 如果 PM / 跨界 → 应用安全 / 政策
没有”必须” 走哪条路—— 选最适合 + 最有兴趣的。
加入 community
- 上 AI Alignment Forum 看 / 评论
- 参加 AI Safety Camp(年度)
- 加入 Discord 讨论组
- 找 mentor
孤立做研究极慢—— 社群是 alignment 的核心。
写作 + 公开
发表你的想法——
- 写 blog post
- 投 workshop paper
- 在 forum 上分享
你的工作被看到才有价值—— 私下做不公开等于没做。
一个真实的轨迹
朋友的实际路径—— 某 AI 安全研究者从 ML engineer 到 Anthropic:
- Year 0: ML engineer,做 LLM 应用(无 alignment 背景)
- Year 1: 业余读 alignment 论文 + 玩 SAE + 写 2 篇博客
- Year 1.5: 参加 MATS 项目(远程)
- Year 2: 在 Apollo Research 做 6 个月研究
- Year 2.5: 发表 1 篇 alignment workshop paper
- Year 3: Anthropic Alignment Science 团队录用
3 年从 0 到 Anthropic—— 不是不可能。
2026 年—— AI 安全是 ML 里最重要的方向之一—— 也是最稀缺人才 的方向。
理由:
- 没安全 = AI 没法持续发展
- 大公司全力招人
- 但懂技术 + 懂安全 + 懂哲学 的人极少
如果你年轻、ML 强、对哲学 / 社会问题有兴趣—— AI 安全可能是值得 10 年投入的方向。
比写 AI 应用赚的少—— 但影响力大得多。
下一篇推荐:L6-08 AGI 风险讨论 或 L6-09 国际 AI 治理。
读到这里说明你认真在学 🎯
订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。