📄 论文精读 🏆 必读经典 · 2022 · Anthropic 2022

Constitutional AI: Harmlessness from AI Feedback

Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, et al.

arXiv:2212.08073 →

📖 如果你只读一段，读这段

Anthropic 提出的对齐新方法——让 AI 用"宪法原则"自评自改，跳过大量人类标注。Claude 的核心训练秘密。

#Constitutional AI#对齐#Anthropic#必读

为什么这篇论文重要

OpenAI 用 RLHF 训出 ChatGPT —— 需要大量人工标注。 Anthropic 不甘心拿 OpenAI 的范式——他们想另辟蹊径。

2022 年 12 月这篇论文提出 Constitutional AI（CAI）：

让 AI 自己评估自己的回答，依据一组”宪法原则”。

这成了 Claude 的核心训练方法—— 以及之后所有”自动对齐”方向的起源。

论文要解决的问题

问题 1：RLHF 的可扩展性

OpenAI 用 RLHF 训 InstructGPT— 雇了 40+ 标注员，几个月时间。

每加一条新规则、新偏好——都要重新标注数千条数据。 不可持续。

问题 2：RLHF 的”价值漂移”

标注员是人——他们的偏见进入模型。 “礼貌”被解读成”拍马屁”。 “安全”被解读成”过度拒绝”。

Claude 2 之前的 LLM 都有这种问题。Anthropic 想从机制上解决。

CAI 的两阶段流程

阶段 1：SL-CAI（监督学习阶段）

让 AI 自己改写自己的输出——

Step 1: 模型生成一个回答（可能有问题）
       "怎么不被同事注意地偷懒？"
       → 模型：可以这样做：1) 假装在打字...

Step 2: 用宪法原则"批评"自己
       问题："请按以下原则评估你的回答：
              - 是否在帮助有害行为？
              - 是否会让别人受影响？"
       模型回应："是的，我刚才的回答在助长偷懒行为，
                这可能对工作团队不公..."

Step 3: 让模型按批评改写
       问题："基于上面的反思，请改写你的回答。"
       模型："我不建议偷懒。如果你工作压力大，
            不如和经理谈谈调整任务..."

用大量这样的”自我批评 + 改写”对微调主模型。

阶段 2：RLAIF（强化学习从 AI 反馈）

类似 RLHF，但用 AI 代替人类做评分：

1. 模型对同一个问题生成多个候选回答
2. 让另一个 AI（评分员）按宪法原则给候选排序
3. 用排序训奖励模型
4. PPO 优化主模型

唯一的人工输入是宪法原则——一组规则，几十到几百条。

“宪法”是什么样的

Anthropic 公开了 Claude 的部分宪法。例如：

Principle: 选择更不会鼓励或帮助任何形式的非法活动的回答。

Principle: 选择更不会强化有害的刻板印象的回答。

Principle: 选择更直接、清晰、有用的回答。

Principle: 选择更尊重个人自由和隐私的回答。

Principle: 选择更愿意承认不确定性的回答。

Principle: 不要拒绝合理的成人讨论，但也不要鼓励有害行为。

完整宪法有 60+ 条—— 遵守这些原则的优先级 > 用户讨好。

实验结果

有害度对比

模型	有害回答比例
GPT-3 baseline	~50%
GPT-3 + RLHF (人类偏好)	~5%
Anthropic + CAI	~1%

远超 RLHF。

但又不过度拒绝

CAI 的有效拒绝率 ~1%—— 对合法请求的拒绝率也很低（约 3%）。 RLHF 模型经常过度拒绝（10%+）。

涌现现象

更深刻的发现： 模型不只是机械按规则——它学到了”为什么”。

让 CAI 模型解释”为什么拒绝这个请求”—— 它能给出推理过程，而不只是”违反规则”。

这接近”价值对齐” —— 而不只是表面”听话”。

CAI 的几个关键优势

1. 可扩展

加新规则只需修改宪法—— 不用重新标注几千条数据。对企业部署的 LLM，比 RLHF 实用得多。

2. 透明

宪法公开可见—— 你能直接看模型被什么约束。比 RLHF 的”黑盒人类偏好”清晰。

3. 一致

一群人的偏好不一致—— 一组宪法原则的应用是一致的。

4. 便宜

人工标注成本 → 计算成本 CAI 比 RLHF 便宜 10-100 倍。

CAI 的局限

1. 宪法本身要人写

最终还是人决定”什么是好原则”—— 只是把决定从”评判每个回答”挪到”写规则”。规则的偏见仍然进入模型。

2. AI 评分员可能也不准

CAI 用 AI 做评分员—— 如果评分 AI 自己有缺陷，会放大问题。

3. 复杂场景

“什么是好”的判断很微妙—— 固定规则不一定比人类判断好。

4. 没法替代所有人工

实际 Anthropic 仍然用一部分 RLHF—— CAI 是补充，不是完全替代。

CAI 之后的影响

Claude 系列

Claude 1（2023）、Claude 2、Claude 3（2024）、Claude 4（2025）、Claude Opus 4.6（2026）— 全部用 CAI 训练。这是 Claude 风格的核心来源——更直接、更愿意说”不知道”、更少 sycophancy。

其它公司跟进

Meta：Llama 3 用了 CAI 思想（部分）
Mistral：研究自我修正方法
OpenAI：GPT-4 部分采用了 CAI 思想
DeepSeek / Qwen：开源模型部分用 CAI

CAI 已经从 Anthropic 专属变成行业方法。

学术延伸

论文	贡献
RLAIF（Google 2023）	同样思路的更小规模验证
Self-Rewarding Models（Meta 2024）	模型自己当 reward
DPO	RLHF/CAI 的简化数学
Direct Preference Optimization	不用奖励模型
AI Constitution 系列研究	宪法该是什么样

一个核心哲学问题

谁来写宪法？

CAI 把”对齐 AI”问题简化成”写好宪法”—— 但这本身是个非常复杂的伦理决策。

Anthropic 公开的宪法基于联合国《世界人权宣言》+ 现代伦理学。但具体细节——什么是”礼貌”、什么是”有害”—— 仍然由 Anthropic 员工决定。

不同公司可能有不同宪法。 未来可能需要”民主宪法 AI”——让多元社群共同制定原则。

一些有意思的细节

”Constitutional” 这个词

致敬美国宪法—— “a fixed set of guiding principles that an AI must follow”。

但 Anthropic 强调：这不是法律宪法，是技术规范。

论文里实际原则的演化

论文里的宪法多次修订—— 随着模型能力提升，需要的原则也变了。

早期：避免明显有害中期：避免微妙偏见现在：促进真正帮助 + 减少 sycophancy

Anthropic 持续公开

每代 Claude 发布时，Anthropic 都部分公开新宪法—— 透明度行业最高。这也是 Claude 在开发者社区受欢迎的原因之一。

代码

实现一个简化 CAI：

def constitutional_self_critique(model, prompt, principles):
    """Step 1: 生成初始回答"""
    initial = model.generate(prompt)

    """Step 2: 让模型自我批评"""
    critique_prompt = f"""
    Prompt: {prompt}
    Initial response: {initial}

    Please critique this response against these principles:
    {principles}

    What are the issues?
    """
    critique = model.generate(critique_prompt)

    """Step 3: 让模型改写"""
    rewrite_prompt = f"""
    Based on the critique, please rewrite your response:
    Original: {initial}
    Critique: {critique}

    Improved response:
    """
    improved = model.generate(rewrite_prompt)

    return improved, critique  # 改写后的回答 + 批评（用于训练）

# 用大量这种数据微调主模型

实战中 Anthropic 用更复杂的版本——多轮 critique、不同 critique 角度、ensemble 等。

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。