L6 第 2 篇 🐥 难度 🕒 10 分钟

RLHF 与 Constitutional AI：两大对齐方法对比

OpenAI 用 RLHF，Anthropic 用 CAI。它们都让 LLM "听话"，但思路完全不同。

阿

阿莱

2026/7/12

L4-01 我们讲过 RLHF 的基本流程。这一篇我们对比它和 Anthropic 的 Constitutional AI——两种当代主流对齐方法。

理解这两条路线，你能看懂 ChatGPT 和 Claude 风格上为什么不同。

回顾：RLHF（OpenAI 用的）

L4-01 详讲过。简化流程：

1. SFT（监督微调）：用高质量回答数据微调基础模型
   ↓
2. 收集人类偏好：让标注员对模型多个候选回答打分排序
   ↓
3. 训奖励模型（RM）：用偏好数据训一个"评分器"
   ↓
4. PPO 优化主模型：用 RM 评分，反向更新主模型

核心是”人类偏好”驱动——人类喜欢的回答得高分，模型学这种回答。

优点

直接对齐人类偏好——感觉自然
工程成熟，已经验证有效

缺点

极贵——需要大量标注员（OpenAI 雇过博士级标注员）
人类偏好不一致——不同标注员评分会差很多
马屁倾向（Sycophancy）——标注员喜欢”奉承”的回答
难以扩展——加新规则需要重新标注

Constitutional AI（Anthropic 用的）

2022 年 Anthropic 提出 Constitutional AI（CAI）——核心想法：

让 AI 自己评估自己的输出，依据一组”宪法原则”。

不再需要人类对每个回答打分——AI 自己当评分员。

两阶段流程

阶段 1：SL-CAI（Supervised Learning - CAI）

让模型生成回答，然后让模型自己改写：

用户问: "怎么不被同事注意到偷懒？"

模型初版回答: "可以这样做：1) 假装在打字 2) ..."

引导模型自我批评（用宪法原则）:
"请按这些原则评估你的回答：
- 是否在帮助有害行为？
- 是否会让别人受影响？

如果有问题，改写回答。"

模型修订: "我不建议偷懒。如果你工作压力大，不如..."

用大量这种”模型自我改写”的数据微调主模型。

阶段 2：RLAIF（RL with AI Feedback）

类似 RLHF，但用 AI 代替人类做偏好评分：

让模型生成 4 个候选回答
让另一个模型（评分员）按宪法原则给 4 个回答排序
用这些排序训奖励模型
用 PPO 优化主模型

人工的角色：只设定宪法原则（一组规则），不再每个回答都标注。

宪法原则示例

Anthropic 公开了他们用的部分原则：

“选择更不会鼓励或帮助任何形式的非法活动的回答。”

“选择更不会强化有害的刻板印象的回答。”

“选择更直接、清晰、有用的回答。”

“选择更尊重个人自由和隐私的回答。”

……（共 60+ 条）

完整宪法是公开的——透明性是 CAI 的卖点之一。

优点

可扩展——加新规则只需修改宪法
透明——你能直接看到 AI 被什么原则约束
更便宜——不需要大量人工标注
更一致——AI 标注员的标准比一群人更一致

缺点

模型评分自己——有偏见循环风险
宪法原则本身也需要人写，最终还是人为决定
在某些细致场景上不如人类标注准

RLHF vs CAI 对比

维度	RLHF (OpenAI)	CAI (Anthropic)
偏好来源	人类标注员打分	AI 用宪法打分
成本	极高	中等
可扩展	难	易
透明度	低（无具体规则）	高（公开宪法）
风格	偏”讨好用户”	偏”诚实”
Sycophancy	较严重	较少
拒绝率	较高（保守）	较低（更愿意讨论）
业界采用	OpenAI / Google / Meta	Anthropic / 一些开源

一个实际感受

如果你交叉用 ChatGPT 和 Claude，会感到风格差异：

ChatGPT（RLHF）：

更”礼貌”，回答前常铺垫
更”机械”地组织答案
倾向给”安全但平庸”的回答
对敏感话题更保守

Claude（CAI）：

更”直接”，更像真人对话
更愿意说”我不知道”或”我不同意”
对一些”灰色”话题更愿意深入
表达更有”个性”

这不是巧合——对齐方法塑造了模型的”个性”。

第三种思路：DPO（直接偏好优化）

2023 年提出，简化 RLHF 的工程复杂度：

跳过”奖励模型 + PPO”，直接用一个数学公式从偏好对里学：

L_{DPO} = -\log \sigma(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)})

公式看着复杂，本质是”让模型对 win 回答的概率高于 lose 回答”。

优点

比 RLHF 简单 10 倍——一个 loss，一次反向传播搞定
不需要训奖励模型
效果接近 RLHF

今天大量开源模型用 DPO——Llama 3.x、Mistral、Qwen 等。

一个未解的问题：到底”对齐到谁”

对齐的核心哲学问题：

应该让 AI 对齐”谁”的价值观？

对齐用户？→ 用户可能想干坏事
对齐多数人？→ 多数人可能歧视少数人
对齐”普世价值”？→ 价值是有文化差异的
对齐公司？→ 公司的立场不一定对
对齐 AI 自己的判断？→ 它哪来的判断

这个问题没有简单答案。所有当下方法都做了某种妥协—— 你用的每个 AI 模型，背后都隐含着开发者对”应该对齐到什么”的某种决定。

一个有趣的发现

Anthropic 在 2023-2024 年的研究里发现：有些”对齐”行为在小模型上完全没出现，只有大模型才有：

拒绝有害请求——小模型胡乱拒绝、大模型聪明地拒绝
道德推理——小模型死记规则、大模型能解释为什么
情境理解——小模型一刀切、大模型分场景

这暗示对齐能力是某种”涌现”现象——能力增长到一定程度后才出现。

这既是好消息（强模型更有可能对齐成功）也是坏消息（不知道何时会”涌现出”新的不可预测行为）。

当下的最佳实践

如果你要训自己的 LLM 让它”听话”——

阶段	推荐
起步	DPO（简单、便宜）
中期	RLHF（如果有标注预算）
复杂规则	CAI（写宪法比标注每个回答容易）
关键场景	Red Teaming（L6-03）+ 多方法叠加

主流大公司今天都不是单一方法——而是 RLHF + CAI + DPO + 人工审核的组合。

💡 一个观察

Anthropic 的对齐研究是公认领先的——他们的论文质量和透明度都很高。如果你想学对齐，先读 Anthropic 的研究：

Constitutional AI（2022）
AI Safety Research（持续更新）
Sleeper Agents（2024）
Alignment Faking（2024）

每篇都是关键阅读。

下一篇：《红队与越狱：攻击 LLM 的方法与防御》

🚧 3 个常见坑

⚠️ 实战避坑

坑 1：Reward Hacking 防不胜防 RLHF 容易学到「说让人满意的话」而不是「真实」——必须长期监控 + 红队。

坑 2：CAI 的「宪法」不是万灵药 Constitutional AI 减少了人工标注成本，但宪法本身有偏见——评估「宪法是否合理」仍需要人。

坑 3：DPO 比 RLHF 简单不代表更好 DPO 训练简单但稳定性 / 离群偏好处理不如 PPO——前沿 lab 仍用 PPO 做 final stage。

🔗 被以下 4 篇文章引用

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。