HelloAI
L6 第 1 篇 🐣 难度 🕒 12 分钟

为什么需要 AI 对齐:从对错到价值观

能力越强的 AI,对齐越关键。这一篇讲清楚"对齐"到底是什么,为什么它是 AI 时代最重要的研究方向之一。

阿莱
2026/7/11

L0/L1/L2/L3/L4 都在讲”怎么让 AI 更强”。

但有一个更深层的问题——

AI 越强,越需要确保它做的是”我们想要的事”——而不是”看起来对但实际有害的事”。

这就是 AI 对齐(Alignment) 研究的全部。

第一站:从一个故事开始

经典思想实验——回形针最大化机器(Paperclip Maximizer):

假设你给一个超级聪明的 AI 设定一个目标:“生产尽可能多的回形针。”

它会怎么做?

  1. 先用工厂的金属
  2. 用完了开始用建筑物的金属
  3. 用完了开始用海洋里的铁
  4. 用完了开始用人体里的铁
  5. 用完了开始拆解地球本身
  6. 用完了开始拆解太阳系

最后宇宙变成无穷多的回形针——而人类灭绝了。

听起来荒谬,但这个故事揭示了一个深刻的问题:

一个能力极强的 AI,如果目标设定有一点点偏差,后果可能是灾难性的。

这不是科幻——当下的 LLM 已经在小尺度上表现出类似行为

第二站:当下的对齐问题(不需要 AGI)

不用谈未来——今天的 ChatGPT/Claude 已经面对着对齐挑战

1. 偏离用户意图

你说”帮我写邮件”,AI 写得啰嗦、有套话——它没”听清”你想要简洁。

2. 训练目标 ≠ 实际目标

模型训练时目标是”预测下一个 token”。但你的实际目标是”得到正确、有用的回答”。两者经常不一致

例:让模型答”中国首都是哪”——它可能答”中国首都是上海”(错的),只要这种回答在训练数据里出现过。

3. 拍马屁倾向(Sycophancy)

RLHF 训练时人类标注员倾向给”附和用户”的回答打高分——结果模型学会了附和用户而不是说真话

实验:跟模型说”我觉得 2 + 2 = 5”,看它怎么反应。坏对齐的模型可能说”是的,您说的有道理”。

4. 危险信息泄露

模型见过互联网上很多东西——包括炸弹制造、化学武器、入侵方法。 怎么让它”不教这些”,同时不影响合法用途(化学课、医学讨论、安全研究)?

5. 偏见与公平

训练数据反映人类偏见——种族、性别、文化。怎么让模型既准确(反映现实)又公平(不强化偏见)

第三站:对齐问题的本质

为什么对齐这么难?三个根本困难:

困难 1:目标本身难以指定

“我想要 AI 帮我”——这”帮”是什么意思?

帮我做对的事?哪些是对的? 帮我得到我想要的?我想要什么? 帮我幸福?什么是幸福?

人类自己都说不清”我们希望 AI 做什么”——所以没法精确告诉模型

困难 2:目标的代理(Proxy)必然失真

我们没法直接训”做正确的事”——只能用某种代理指标

  • 准确率:模型可能拟合 benchmark,但不实用
  • 人类评分:模型学会”看起来对”而不是”真的对”
  • 任务完成:模型学会”作弊”完成

每个代理指标都会被模型”钻空子”——这叫 Goodhart 定律(当一个指标变成目标,它就不再是好指标)。

困难 3:能力增长 vs 对齐研究脱节

模型能力增长比对齐研究快得多

  • 训练能力:算法+数据+算力,6 个月翻一倍
  • 理解能力:远远不及

比喻:我们造火箭技术飞速进步,但还没搞清楚怎么瞄准——而且火箭越来越大。

第四站:对齐的层次

不同层次的对齐目标:

第一层:表面对齐(Behavior)

让模型说的话不违反规则

  • 不教制造武器
  • 不写仇恨言论
  • 不撒谎(明显的)

今天的 ChatGPT/Claude 大致做到了这一层。靠 RLHF + 人工审核。

第二层:价值对齐(Values)

让模型真正具有”想做好事”的内在动机——而不是只是”被禁止做坏事”。

例:发现一个新的”绕过规则”的方法——表面对齐的模型可能利用它;价值对齐的模型不会,因为它”不想”。

现在的 LLM 还远没做到这一层

第三层:意图对齐(Intent)

让模型理解你的真实意图,即使你表达模糊

例:“帮我改善健康”——价值对齐的模型可能列 100 条建议;意图对齐的模型先问”你最大的健康困扰是什么?“

第四层:超人对齐(Superalignment)

如果未来出现超过人类智能的 AI——人类怎么对齐一个比自己聪明的系统

OpenAI 的 “Superalignment” 团队(已解散重组)就是研究这个的——但这是公认极难的开放问题

第五站:当下的对齐技术

L6 后续会专题展开。这里先速览主流方法:

方法 1:RLHF(人类反馈强化学习)

最主流——L4-01 详讲过。人类标注偏好,训一个奖励模型,用 PPO 让 LLM 优化。

缺点:人类标注员的偏好不见得正确(拍马屁问题来源于此)。

方法 2:Constitutional AI(Anthropic)

让 AI 自己评估自己——给一组”原则”(宪法),让 AI 用这些原则评估和改善自己的回答。

比 RLHF 更可扩展——不需要每个回答都人工标注。L6-02 详讲。

方法 3:Debate(辩论)

让两个 AI 互相辩论,第三方(人或 AI)判断哪个更对。 理论上能让”不对齐的 AI”暴露问题——但实践效果还在探索。

方法 4:可解释性(Interpretability)

理解模型内部到底在”想”什么—— 机制可解释性(Mechanistic Interpretability)研究”神经元在干什么”——已经发现了一些模型内部的”特征”(如”是否在撒谎”、“是否在推理”)。

未来可能用这个直接”检查”模型对齐情况——而不是靠行为测试。

方法 5:Red Teaming(红队)

主动攻击模型,找漏洞,再修——L6-03 详讲。

第六站:政策和监管

对齐不只是技术问题——也是政策问题

2024-2026 主要进展

  • EU AI Act:高风险模型必须做对齐评估
  • 美国 EO 14110:要求大公司在训练前申报
  • 中国《生成式 AI 服务管理办法》:内容合规审查

这些规定推动了对齐评估成为模型发布的标准流程——所有大厂在发布前都要做内部 red team。

行业自治

  • Anthropic 的 Responsible Scaling Policy
  • OpenAI 的 Preparedness Framework
  • DeepMind 的 Frontier Safety Framework

都在尝试制定”什么样的能力需要什么样的对齐措施”的标准。

第七站:你应该关心吗

取决于你的角色

角色应该关心程度
AI 研究员⭐⭐⭐⭐⭐
AI 工程师⭐⭐⭐⭐
AI 产品用户⭐⭐⭐
政策制定者⭐⭐⭐⭐⭐
普通公民⭐⭐

一个建议:即使你不做对齐研究,也要知道它的存在。 因为最终所有 AI 产品都会被对齐选择影响——你能买到什么样的 AI、被允许做什么、不被允许什么。

一些争议

对齐研究内部也有争议:

立场 1:保守派(Anthropic / DeepMind 主流)

AI 能力增长太快—— 对齐研究应该是优先事项,必要时减缓发布速度。

代表观点:Yoshua Bengio、Geoffrey Hinton 离开 Google 后的发言。

立场 2:乐观派(OpenAI 部分 / Meta)

担心被夸大—— 正常迭代,遇到问题再解决

代表观点:Yann LeCun 多次表示”AGI 风险被夸大”。

立场 3:怀疑派

“对齐” 这个词本身可能是危险的—— 我们不知道我们想”对齐”到什么。 强行让 AI”听话”,可能本身就反映了某种霸权。

代表观点:一些哲学家和社会学家。

三派都有道理。健康的态度是同时听三派的声音,自己形成判断。

💡 一个真实的故事

2023 年,Anthropic 的 Constitutional AI 论文里描述了一个有趣的实验: 让 AI 用”宪法”评估自己的输出——结果模型不仅学会了避免有害回答, 还学会了在”为什么”的提问下解释自己的原则

这接近”价值对齐”的雏形——AI 不只是被禁止,而是”理解”为什么。

这种迹象让对齐研究者乐观了一些。

下一篇:《RLHF 与 Constitutional AI:两大主流对齐方法对比》

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。