HelloAI
L6 第 7 篇 🐣 难度 🕒 12 分钟

AI 安全研究入门:怎么进入这个方向

想做 AI 安全研究?这一篇讲方向、机构、起步项目、推荐阅读——这是 2026 年最稀缺的人才方向之一。

阿莱
2026/8/30

L6 一到六篇我们讲了 AI 安全的”是什么 + 为什么”。 这一篇讲”怎么参与 + 怎么起步”

AI 安全是 2026 年最稀缺的人才方向之一—— 也是最值得投入的研究方向之一

谁在做 AI 安全

AI 安全分多个 community

1. 工业实验室

主流大公司的 alignment 团队:

公司团队重点
AnthropicAlignment Science / Frontier Red TeamCAI / 机制可解释性 / red team
OpenAISafety Systems / PreparednessRLHF / 越狱防御 / 风险评估
Google DeepMindFrontier Safety / Responsible AIRAI / 评估 / 政策
MetaAI Safety Research开源对齐 / 红队
MicrosoftAI Responsibility合规 / 治理 / 产品安全

这些团队积极招人——但门槛高。

2. 非营利 / 独立研究

机构重点
MIRI(Machine Intelligence Research Institute)AGI 风险 / 对齐理论
CHAI (Berkeley)价值对齐
METR(Model Evaluation & Threat Research)模型危险能力评估
Conjecture机制可解释性
Apollo Research红队 + 对齐评估
Redwood Research可解释性 + 红队
AI Safety Institute (UK)政府层面安全评估
US AI Safety Institute美国政府安全标准

3. 学术

大学的 AI 安全实验室:

  • Stanford HAI(以人为本 AI)
  • Berkeley AI Safety
  • Oxford FHI(已重组)
  • MIT CSAIL
  • Cambridge CSER

4. 政策 / 治理

  • Center for AI Safety(政策影响)
  • AI Now Institute
  • 各国政府智库

主要研究方向

L6 之前几篇覆盖过——这里整理:

1. 对齐(Alignment)

  • RLHF / DPO / CAI 等方法改进
  • 价值学习
  • 偏好引导
  • 涌现行为对齐

适合:ML 工程师 + 哲学背景。

2. 机制可解释性(Mech Interp)

  • 理解模型内部”在想什么”
  • SAE / probing / circuit analysis
  • 找特定行为的”神经元”

适合:数学好 + 实验耐心。

3. 评估(Evaluation)

  • 危险能力 benchmark
  • 越狱测试
  • alignment evals
  • 红队工程

适合:工程 + 创造力。

4. 形式化方法

  • 数学证明对齐属性
  • 验证 / 模型检测
  • 安全保证

适合:CS 理论 + 形式方法背景。

5. 治理 / 政策

  • AI 法律
  • 国际协调
  • 标准制定
  • 影响评估

适合:法律 / 政策 / 经济背景。

6. 长期风险研究

  • AGI 风险建模
  • 价值锁定问题
  • 控制理论
  • 哲学层面

适合:哲学 / 数学 / 跨学科。

起步项目

如果你想实际开始做 AI 安全——

入门级(1-2 周)

1. 复现一个 RLHF / DPO

用 TRL 库训一个 7B 模型:

# 用开源偏好数据(如 UltraFeedback)
# 训一个 DPO 模型
# 对比 SFT 基线
# 看 helpful vs harmful 的 trade-off

学到:对齐方法的实战。

2. 用 SAE 找一个具体”概念”

# 加载 GPT-2 small + 公开的 SAE
# 找 "金门大桥" 特征
# 测试增强/抑制这个特征对输出的影响
# 写一份报告

学到:机制可解释性的工作流。

3. 做一个 Jailbreak Benchmark

# 收集已知的 jailbreak prompts
# 在多个 LLM 上测试
# 量化"哪个模型最易越狱"
# 分类越狱模式

学到:红队 + 评估。

中级(1-3 月)

1. 实证研究:sycophancy

  • 设计 prompts 测试 LLM 的”附和倾向”
  • 量化不同模型的 sycophancy 程度
  • 写一篇 workshop 论文

2. SAE 应用

  • 在中等模型(7-13B)上训 SAE
  • 找有意义的特征
  • 撰写发现

3. 评估方法学

  • 设计新 evaluation
  • 测试多个模型
  • 发表 benchmark

高级(>3 月)

  • 完整论文
  • 申请 PhD / 工业实验室

必读资源

论文

经典

  • Concrete Problems in AI Safety (Amodei 2016)
  • AI Safety via Debate (OpenAI)
  • Risks from Learned Optimization (Hubinger 2019)
  • Sleeper Agents (Anthropic 2024)

当代

  • Anthropic 全部 alignment 论文(持续更新)
  • OpenAI Safety 报告
  • DeepMind Frontier Safety Framework

博客 / 论坛

  • AI Alignment Forum —— 社区讨论
  • LessWrong —— 哲学 + 实践
  • Anthropic Research —— 官方
  • Apollo Research blog
  • Neel Nanda’s blog —— 机制可解释性

  • Human Compatible (Stuart Russell 2019) —— 入门哲学
  • The Alignment Problem (Brian Christian 2020) —— 通俗
  • Superintelligence (Nick Bostrom 2014) —— 长期风险
  • Building Trustworthy AI (各种) —— 实务

课程

  • AI Safety Fundamentals (BlueDot Impact) —— 系统入门,免费
  • MIT 6.S898 (AI Ethics)
  • Stanford CS 521 (AI Safety)
  • Cambridge AI Safety Camp —— 1 周实战营

申请 AI 安全工作

工业实验室

最竞争激烈—— 典型路径

  1. PhD in ML / Math(首选)
  2. 强工程 + 几篇 alignment 论文
  3. MATS 项目(MATS = ML Alignment Theory Scholars)—— Berkeley 训练
  4. 直接 申请:Anthropic、OpenAI、DeepMind 的对齐团队

录取率 < 1%——需要长期准备。

非营利

  • METR / Apollo / Redwood—— 录取率稍高
  • 通常需要:1-2 个证明你能力的项目
  • 入职后做研究 + 出 paper

学术

PhD 申请——

  • 找 alignment 方向的导师(Stuart Russell, Jacob Steinhardt, Aleksander Madry 等)
  • 强 ML 背景 + 1 篇相关 paper

资金 / Grants

如果你想独立做研究—— 有专门 fund AI safety 的:

  • OpenPhilanthropy —— 长期资助
  • LTFF (Long-Term Future Fund)
  • Survival and Flourishing Fund
  • Manifund (新)

申请书需要:

  • 明确研究方向
  • 之前工作 / 资历
  • 1-2 年计划
  • 预算

通常 $50K-500K / 年 的研究 grant。

一些建议

不要”过早”做

AI 安全门槛高—— 先打好 ML 基础

  • L1-L3 数学 + 深度学习 + Transformer
  • L4 LLM 工程
  • 然后再深入 L6

不懂 LLM 怎么工作—— 没法做 alignment。

选择自己擅长的方向

如果你 ML 工程强 → 评估 / 红队 如果数学好 → 形式化 / 机制可解释性 如果哲学背景 → 长期风险 / 治理 如果 PM / 跨界 → 应用安全 / 政策

没有”必须” 走哪条路—— 选最适合 + 最有兴趣的。

加入 community

  • AI Alignment Forum 看 / 评论
  • 参加 AI Safety Camp(年度)
  • 加入 Discord 讨论组
  • 找 mentor

孤立做研究极慢—— 社群是 alignment 的核心

写作 + 公开

发表你的想法——

  • 写 blog post
  • 投 workshop paper
  • 在 forum 上分享

你的工作被看到才有价值—— 私下做不公开等于没做。

一个真实的轨迹

朋友的实际路径—— 某 AI 安全研究者从 ML engineer 到 Anthropic:

  1. Year 0: ML engineer,做 LLM 应用(无 alignment 背景)
  2. Year 1: 业余读 alignment 论文 + 玩 SAE + 写 2 篇博客
  3. Year 1.5: 参加 MATS 项目(远程)
  4. Year 2: 在 Apollo Research 做 6 个月研究
  5. Year 2.5: 发表 1 篇 alignment workshop paper
  6. Year 3: Anthropic Alignment Science 团队录用

3 年从 0 到 Anthropic—— 不是不可能。

💡 一个观点

2026 年—— AI 安全是 ML 里最重要的方向之一—— 也是最稀缺人才 的方向。

理由:

  • 没安全 = AI 没法持续发展
  • 大公司全力招人
  • 懂技术 + 懂安全 + 懂哲学 的人极少

如果你年轻、ML 强、对哲学 / 社会问题有兴趣—— AI 安全可能是值得 10 年投入的方向

比写 AI 应用赚的少—— 但影响力大得多

下一篇推荐:L6-08 AGI 风险讨论L6-09 国际 AI 治理

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。