HelloAI
📄 论文精读 🏆 必读经典 ⭐ 本周精选 · 2024 · OpenAI 2024

Learning to Reason with LLMs (OpenAI o1)

OpenAI o1 Team
TL;DR
推理时计算的范式转变——让 LLM 在回答前花更多时间"思考",复杂问题准确率从 20% 升到 80%。开启了"推理模型"时代。
#o1#Reasoning#CoT#前沿#必读

为什么这篇报告重要

2024 年 9 月 OpenAI 发布 o1(“Strawberry”)—— 第一个公开的”推理模型”(reasoning model)

不像 GPT-4 那样”看到问题立刻答”—— o1 会先”长时间思考”,再给最终回答

复杂任务上准确率大幅提升:

  • 数学奥赛(AIME):83.3%(GPT-4o:13.4%)
  • 物理博士题目:~78%
  • 编程比赛 Codeforces:第 89 百分位

这不是渐进改善——这是范式转变

核心思路:推理时计算(Test-Time Compute)

之前的范式:

训练时投资 → 推理时小成本 → 直接出答案

o1 的范式:

训练时投资 → 推理时再投资(“思考” CoT)→ 出答案

具体来说—— o1 内部生成一个很长的 chain-of-thought(可能几千个 token 的内部推理)—— 然后只把最终答案给用户看

用户看到的是”答案”——但模型已经”想”了很多

一个真实例子

问题:找出 4 个连续整数,其平方和是 1234。

GPT-4 通常直接猜——错。

o1 会内部生成(用户不可见):

让我想想。
四个连续整数: n, n+1, n+2, n+3
平方和 = n² + (n+1)² + (n+2)² + (n+3)²
     = n² + n² + 2n + 1 + n² + 4n + 4 + n² + 6n + 9
     = 4n² + 12n + 14

设 = 1234,那 4n² + 12n + 14 = 1234
4n² + 12n - 1220 = 0
n² + 3n - 305 = 0
判别式 = 9 + 1220 = 1229

√1229 ≈ 35.06
n = (-3 + 35.06) / 2 ≈ 16.03

不是整数。检查我的代数...

实际上让我重做。设 n=16:
16² + 17² + 18² + 19² = 256 + 289 + 324 + 361 = 1230 ≠ 1234

设 n=17:
17² + 18² + 19² + 20² = 289 + 324 + 361 + 400 = 1374 ≠ 1234

似乎没有正整数解。让我考虑负数...

经过多次尝试,结论是没有解。

用户只看到:“没有满足条件的连续整数。”

但内部有几千 token 的探索 + 错误 + 自纠。 这就是 o1 的工作方式

训练方法(部分披露)

OpenAI 没公开完整训练流程——但披露了几点:

1. 强化学习

o1 用 大规模 RL 训练—— 学习”什么样的推理过程导致正确答案”。

不同于 RLHF(基于人类偏好)—— 这是基于”答案对错”的 RL——更接近 AlphaGo 的思路。

2. Chain-of-Thought 是训练目标

模型被训练生成可验证的推理步骤—— 而不只是”输出答案”。

3. Process supervision

不只验证最终答案,还验证中间步骤

传统:只看最终是否对
process supervision:每一步推理是否合理

这让模型学到”如何思考”,不只是”如何说对的话”。

4. Reasoning tokens

o1 用专门的”推理 token”做内部思考—— 用户不可见,OpenAI 收费时算进去。

性能数据

在挑战性任务上

任务GPT-4oo1
AIME 2024 (数学奥赛)13.4%83.3%
Codeforces (编程)11%89% percentile
GPQA (PhD 物理)56%78%
MATH60%94%

复杂推理任务上几倍提升

但简单任务上无明显改善

任务GPT-4oo1
闲聊强(无明显差异)
写邮件
总结摘要

o1 适合”难”任务,不适合”日常”任务—— 而且推理时间长(30 秒 - 几分钟),用户体验差。

为什么这是范式转变

之前 LLM 的进步主要靠训练时投资

  • 更多参数
  • 更多数据
  • 更多 GPU

o1 开启了”推理时投资”的方向—— 给同一个模型更多思考时间,能力质变

OpenAI 提出:“Scaling laws extend to test-time compute”—— 测试时计算量翻倍,准确率持续上升。

这意味着:更聪明的 AI 可能不需要更大的模型——只需要更多思考时间。 一个巨大的研究方向。

o1 之后

OpenAI o1 / o3

2024 年底 OpenAI 发布 o3——比 o1 又强。 在 ARC-AGI 基准上突破 85%(人类水平 95%)—— 被广泛认为是接近 AGI 的信号。

Claude 4 Thinking

Anthropic 2025 推出 Claude 4 Thinking 模式—— 类似 o1 的”先思考再回答”。

Gemini 2 Pro Reasoning

Google 也跟进。

开源 reasoning 模型

  • DeepSeek R1(2025):开源 reasoning 模型,性能接近 o1
  • QwQ(阿里)
  • Marco-o1(阿里)

2025-2026 年是”推理模型”年——所有大公司都跟进。

学术研究爆发

  • Process Reward Models(验证推理步骤)
  • Tree of Thoughts(多分支搜索推理)
  • Self-consistency 进阶版

一些限制

1. 慢

复杂问题需要几十秒甚至几分钟思考—— 用户体验差

不能用作实时对话。

2. 贵

o1 每次调用消耗大量 reasoning token—— API 费用是 GPT-4 的 4-10 倍

每答一个难题 $0.5-2 美元——只值高价值场景。

3. 不会”自适应”

o1 对所有问题都长时间思考—— 即使是”今天天气如何”。 没学到”何时简短回答 vs 何时深思”

4. 推理过程不可见

OpenAI 不显示内部 CoT——怕被竞争对手抄。 这让用户无法看到推理过程——降低了可信度

部分研究者也批评:“如果推理不透明,怎么判断它是真推理还是模仿”。

5. 在某些任务上无改善

闲聊、简单问答上—— o1 表现和 GPT-4 几乎相同。 不是万能丹。

哲学问题

”o1 真的在’推理’吗”

支持者:

  • 它能做之前模型做不到的事
  • CoT 长度和准确率正相关
  • 处理过程显示真实的”试错和回溯”

怀疑者:

  • 仍然只是 token 预测的延伸
  • “推理”可能只是模仿训练数据里的推理模式
  • 没有真正的”理解”

这又回到了 L0-06 “什么是智能” 的争论。 没有共识——也许永远不会有

“scaling test-time 还能走多远”

理论上——给更多时间,o1 应该一直变强。 但有物理极限

  • 上下文长度有限
  • 计算成本指数级增长
  • 注意力质量在超长上下文下降

我们可能在 2-3 年内看到这条曲线的天花板。

用户角度的影响

1. AI 不再是”一秒一答”

习惯了 ChatGPT 即问即答—— o1 让你等 30 秒-几分钟改变了”AI 体验”的定义

2. “深度”vs”速度”分化

未来产品可能分:

  • 快模型:日常对话,秒级响应(GPT-4o)
  • 深模型:研究 / 复杂任务,分钟级响应(o1)

像 Google 搜索 vs 学术研究。

3. AI 在数学 / 编程 / 科研的能力大跃迁

o1 在 IMO 题目上超过国际金牌—— 意味着 AI 在最难的智力任务上接近顶尖人类。

代码 / API 使用

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="o1-preview",  # 或 "o1", "o3-mini"
    messages=[{"role": "user", "content": "解决以下数学题: ..."}],
    # 注意:o1 不支持 system prompt、不支持 streaming、不支持 tool use(部分)
)

# 关键不同:用户不看 reasoning token,但被计费
print(response.choices[0].message.content)
print(f"Reasoning tokens used: {response.usage.completion_tokens_details.reasoning_tokens}")

API 差别

  • 不支持流式输出
  • 不支持 system prompt(多数版本)
  • 不支持函数调用(部分版本)
  • 响应时间数十秒到几分钟

推荐配套阅读

  • HelloAI: L4-02 Prompt 进阶 + L4-06 In-Context Learning
  • OpenAI o1 official announcement —— 主报告
  • OpenAI o3 ARC-AGI 报告(2024 末)
  • DeepSeek R1 论文(开源对标)
  • “Thinking Fast and Slow with Deep Learning” —— 类比 Kahneman 双系统理论
💡 一个观察

o1 改变了”LLM 进步”的定义

之前:模型越大越聪明 现在:让模型多想越聪明

如果 test-time compute scaling 持续—— 未来的”超级智能”可能不是更大的模型,是想得更久的模型

这是 AI 时代下一个 5-10 年的核心方向之一。

📬

想要更多论文精读

订阅每周精选 —— 下一篇论文笔记直接送邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。