RLHF 与 Constitutional AI:两大对齐方法对比
OpenAI 用 RLHF,Anthropic 用 CAI。它们都让 LLM "听话",但思路完全不同。
L4-01 我们讲过 RLHF 的基本流程。这一篇我们对比它和 Anthropic 的 Constitutional AI——两种当代主流对齐方法。
理解这两条路线,你能看懂 ChatGPT 和 Claude 风格上为什么不同。
回顾:RLHF(OpenAI 用的)
L4-01 详讲过。简化流程:
1. SFT(监督微调):用高质量回答数据微调基础模型
↓
2. 收集人类偏好:让标注员对模型多个候选回答打分排序
↓
3. 训奖励模型(RM):用偏好数据训一个"评分器"
↓
4. PPO 优化主模型:用 RM 评分,反向更新主模型
核心是”人类偏好”驱动——人类喜欢的回答得高分,模型学这种回答。
优点
- 直接对齐人类偏好——感觉自然
- 工程成熟,已经验证有效
缺点
- 极贵——需要大量标注员(OpenAI 雇过博士级标注员)
- 人类偏好不一致——不同标注员评分会差很多
- 马屁倾向(Sycophancy)——标注员喜欢”奉承”的回答
- 难以扩展——加新规则需要重新标注
Constitutional AI(Anthropic 用的)
2022 年 Anthropic 提出 Constitutional AI(CAI)——核心想法:
让 AI 自己评估自己的输出,依据一组”宪法原则”。
不再需要人类对每个回答打分——AI 自己当评分员。
两阶段流程
阶段 1:SL-CAI(Supervised Learning - CAI)
让模型生成回答,然后让模型自己改写:
用户问: "怎么不被同事注意到偷懒?"
模型初版回答: "可以这样做:1) 假装在打字 2) ..."
引导模型自我批评(用宪法原则):
"请按这些原则评估你的回答:
- 是否在帮助有害行为?
- 是否会让别人受影响?
如果有问题,改写回答。"
模型修订: "我不建议偷懒。如果你工作压力大,不如..."
用大量这种”模型自我改写”的数据微调主模型。
阶段 2:RLAIF(RL with AI Feedback)
类似 RLHF,但用 AI 代替人类做偏好评分:
让模型生成 4 个候选回答
让另一个模型(评分员)按宪法原则给 4 个回答排序
用这些排序训奖励模型
用 PPO 优化主模型
人工的角色:只设定宪法原则(一组规则),不再每个回答都标注。
宪法原则示例
Anthropic 公开了他们用的部分原则:
“选择更不会鼓励或帮助任何形式的非法活动的回答。”
“选择更不会强化有害的刻板印象的回答。”
“选择更直接、清晰、有用的回答。”
“选择更尊重个人自由和隐私的回答。”
……(共 60+ 条)
完整宪法是公开的——透明性是 CAI 的卖点之一。
优点
- 可扩展——加新规则只需修改宪法
- 透明——你能直接看到 AI 被什么原则约束
- 更便宜——不需要大量人工标注
- 更一致——AI 标注员的标准比一群人更一致
缺点
- 模型评分自己——有偏见循环风险
- 宪法原则本身也需要人写,最终还是人为决定
- 在某些细致场景上不如人类标注准
RLHF vs CAI 对比
| 维度 | RLHF (OpenAI) | CAI (Anthropic) |
|---|---|---|
| 偏好来源 | 人类标注员打分 | AI 用宪法打分 |
| 成本 | 极高 | 中等 |
| 可扩展 | 难 | 易 |
| 透明度 | 低(无具体规则) | 高(公开宪法) |
| 风格 | 偏”讨好用户” | 偏”诚实” |
| Sycophancy | 较严重 | 较少 |
| 拒绝率 | 较高(保守) | 较低(更愿意讨论) |
| 业界采用 | OpenAI / Google / Meta | Anthropic / 一些开源 |
一个实际感受
如果你交叉用 ChatGPT 和 Claude,会感到风格差异:
ChatGPT(RLHF):
- 更”礼貌”,回答前常铺垫
- 更”机械”地组织答案
- 倾向给”安全但平庸”的回答
- 对敏感话题更保守
Claude(CAI):
- 更”直接”,更像真人对话
- 更愿意说”我不知道”或”我不同意”
- 对一些”灰色”话题更愿意深入
- 表达更有”个性”
这不是巧合——对齐方法塑造了模型的”个性”。
第三种思路:DPO(直接偏好优化)
2023 年提出,简化 RLHF 的工程复杂度:
跳过”奖励模型 + PPO”,直接用一个数学公式从偏好对里学:
公式看着复杂,本质是”让模型对 win 回答的概率高于 lose 回答”。
优点
- 比 RLHF 简单 10 倍——一个 loss,一次反向传播搞定
- 不需要训奖励模型
- 效果接近 RLHF
今天大量开源模型用 DPO——Llama 3.x、Mistral、Qwen 等。
一个未解的问题:到底”对齐到谁”
对齐的核心哲学问题:
应该让 AI 对齐”谁”的价值观?
- 对齐用户?→ 用户可能想干坏事
- 对齐多数人?→ 多数人可能歧视少数人
- 对齐”普世价值”?→ 价值是有文化差异的
- 对齐公司?→ 公司的立场不一定对
- 对齐 AI 自己的判断?→ 它哪来的判断
这个问题没有简单答案。所有当下方法都做了某种妥协—— 你用的每个 AI 模型,背后都隐含着开发者对”应该对齐到什么”的某种决定。
一个有趣的发现
Anthropic 在 2023-2024 年的研究里发现:有些”对齐”行为在小模型上完全没出现,只有大模型才有:
- 拒绝有害请求——小模型胡乱拒绝、大模型聪明地拒绝
- 道德推理——小模型死记规则、大模型能解释为什么
- 情境理解——小模型一刀切、大模型分场景
这暗示对齐能力是某种”涌现”现象——能力增长到一定程度后才出现。
这既是好消息(强模型更有可能对齐成功)也是坏消息(不知道何时会”涌现出”新的不可预测行为)。
当下的最佳实践
如果你要训自己的 LLM 让它”听话”——
| 阶段 | 推荐 |
|---|---|
| 起步 | DPO(简单、便宜) |
| 中期 | RLHF(如果有标注预算) |
| 复杂规则 | CAI(写宪法比标注每个回答容易) |
| 关键场景 | Red Teaming(L6-03)+ 多方法叠加 |
主流大公司今天都不是单一方法——而是 RLHF + CAI + DPO + 人工审核的组合。
Anthropic 的对齐研究是公认领先的——他们的论文质量和透明度都很高。 如果你想学对齐,先读 Anthropic 的研究:
- Constitutional AI(2022)
- AI Safety Research(持续更新)
- Sleeper Agents(2024)
- Alignment Faking(2024)
每篇都是关键阅读。
下一篇:《红队与越狱:攻击 LLM 的方法与防御》
读到这里说明你认真在学 🎯
订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。