📄 论文精读 🏆 必读经典 ⭐ 本周精选 · 2024 · OpenAI 2024

Learning to Reason with LLMs (OpenAI o1)

OpenAI o1 Team

📖 如果你只读一段，读这段

推理时计算的范式转变——让 LLM 在回答前花更多时间"思考"，复杂问题准确率从 20% 升到 80%。开启了"推理模型"时代。

#o1#Reasoning#CoT#前沿#必读

为什么这篇报告重要

2024 年 9 月 OpenAI 发布 o1（“Strawberry”）—— 第一个公开的”推理模型”（reasoning model）。

不像 GPT-4 那样”看到问题立刻答”—— o1 会先”长时间思考”，再给最终回答。

复杂任务上准确率大幅提升：

数学奥赛（AIME）：83.3%（GPT-4o：13.4%）
物理博士题目：~78%
编程比赛 Codeforces：第 89 百分位

这不是渐进改善——这是范式转变。

核心思路：推理时计算（Test-Time Compute）

之前的范式：

训练时投资 → 推理时小成本 → 直接出答案

o1 的范式：

训练时投资 → 推理时再投资（“思考” CoT）→ 出答案

具体来说—— o1 内部生成一个很长的 chain-of-thought（可能几千个 token 的内部推理）—— 然后只把最终答案给用户看。

用户看到的是”答案”——但模型已经”想”了很多。

一个真实例子

问题：找出 4 个连续整数，其平方和是 1234。

GPT-4 通常直接猜——错。

o1 会内部生成（用户不可见）：

让我想想。
四个连续整数: n, n+1, n+2, n+3
平方和 = n² + (n+1)² + (n+2)² + (n+3)²
     = n² + n² + 2n + 1 + n² + 4n + 4 + n² + 6n + 9
     = 4n² + 12n + 14

设 = 1234，那 4n² + 12n + 14 = 1234
4n² + 12n - 1220 = 0
n² + 3n - 305 = 0
判别式 = 9 + 1220 = 1229

√1229 ≈ 35.06
n = (-3 + 35.06) / 2 ≈ 16.03

不是整数。检查我的代数...

实际上让我重做。设 n=16:
16² + 17² + 18² + 19² = 256 + 289 + 324 + 361 = 1230 ≠ 1234

设 n=17:
17² + 18² + 19² + 20² = 289 + 324 + 361 + 400 = 1374 ≠ 1234

似乎没有正整数解。让我考虑负数...

经过多次尝试，结论是没有解。

用户只看到：“没有满足条件的连续整数。”

但内部有几千 token 的探索 + 错误 + 自纠。 这就是 o1 的工作方式。

训练方法（部分披露）

OpenAI 没公开完整训练流程——但披露了几点：

1. 强化学习

o1 用 大规模 RL 训练—— 学习”什么样的推理过程导致正确答案”。

不同于 RLHF（基于人类偏好）—— 这是基于”答案对错”的 RL——更接近 AlphaGo 的思路。

2. Chain-of-Thought 是训练目标

模型被训练生成可验证的推理步骤—— 而不只是”输出答案”。

3. Process supervision

不只验证最终答案，还验证中间步骤：

传统：只看最终是否对
process supervision：每一步推理是否合理

这让模型学到”如何思考”，不只是”如何说对的话”。

4. Reasoning tokens

o1 用专门的”推理 token”做内部思考—— 用户不可见，OpenAI 收费时算进去。

性能数据

在挑战性任务上

任务	GPT-4o	o1
AIME 2024 (数学奥赛)	13.4%	83.3%
Codeforces (编程)	11%	89% percentile
GPQA (PhD 物理)	56%	78%
MATH	60%	94%

复杂推理任务上几倍提升。

但简单任务上无明显改善

任务	GPT-4o	o1
闲聊	强	强（无明显差异）
写邮件	强	强
总结摘要	强	强

o1 适合”难”任务，不适合”日常”任务—— 而且推理时间长（30 秒 - 几分钟），用户体验差。

为什么这是范式转变

之前 LLM 的进步主要靠训练时投资：

更多参数
更多数据
更多 GPU

o1 开启了”推理时投资”的方向—— 给同一个模型更多思考时间，能力质变。

OpenAI 提出：“Scaling laws extend to test-time compute”—— 测试时计算量翻倍，准确率持续上升。

这意味着：更聪明的 AI 可能不需要更大的模型——只需要更多思考时间。一个巨大的研究方向。

o1 之后

OpenAI o1 / o3

2024 年底 OpenAI 发布 o3——比 o1 又强。 在 ARC-AGI 基准上突破 85%（人类水平 95%）—— 被广泛认为是接近 AGI 的信号。

Claude 4 Thinking

Anthropic 2025 推出 Claude 4 Thinking 模式—— 类似 o1 的”先思考再回答”。

Gemini 2 Pro Reasoning

Google 也跟进。

开源 reasoning 模型

DeepSeek R1（2025）：开源 reasoning 模型，性能接近 o1
QwQ（阿里）
Marco-o1（阿里）

2025-2026 年是”推理模型”年——所有大公司都跟进。

学术研究爆发

Process Reward Models（验证推理步骤）
Tree of Thoughts（多分支搜索推理）
Self-consistency 进阶版

一些限制

1. 慢

复杂问题需要几十秒甚至几分钟思考—— 用户体验差。

不能用作实时对话。

2. 贵

o1 每次调用消耗大量 reasoning token—— API 费用是 GPT-4 的 4-10 倍。

每答一个难题 $0.5-2 美元——只值高价值场景。

3. 不会”自适应”

o1 对所有问题都长时间思考—— 即使是”今天天气如何”。 没学到”何时简短回答 vs 何时深思”。

4. 推理过程不可见

OpenAI 不显示内部 CoT——怕被竞争对手抄。这让用户无法看到推理过程——降低了可信度。

部分研究者也批评：“如果推理不透明，怎么判断它是真推理还是模仿”。

5. 在某些任务上无改善

闲聊、简单问答上—— o1 表现和 GPT-4 几乎相同。不是万能丹。

哲学问题

”o1 真的在’推理’吗”

支持者：

它能做之前模型做不到的事
CoT 长度和准确率正相关
处理过程显示真实的”试错和回溯”

怀疑者：

仍然只是 token 预测的延伸
“推理”可能只是模仿训练数据里的推理模式
没有真正的”理解”

这又回到了 L0-06 “什么是智能” 的争论。 没有共识——也许永远不会有。

“scaling test-time 还能走多远”

理论上——给更多时间，o1 应该一直变强。 但有物理极限：

上下文长度有限
计算成本指数级增长
注意力质量在超长上下文下降

我们可能在 2-3 年内看到这条曲线的天花板。

用户角度的影响

1. AI 不再是”一秒一答”

习惯了 ChatGPT 即问即答—— o1 让你等 30 秒-几分钟。 改变了”AI 体验”的定义。

2. “深度”vs”速度”分化

未来产品可能分：

快模型：日常对话，秒级响应（GPT-4o）
深模型：研究 / 复杂任务，分钟级响应（o1）

像 Google 搜索 vs 学术研究。

3. AI 在数学 / 编程 / 科研的能力大跃迁

o1 在 IMO 题目上超过国际金牌—— 意味着 AI 在最难的智力任务上接近顶尖人类。

代码 / API 使用

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="o1-preview",  # 或 "o1", "o3-mini"
    messages=[{"role": "user", "content": "解决以下数学题: ..."}],
    # 注意：o1 不支持 system prompt、不支持 streaming、不支持 tool use（部分）
)

# 关键不同：用户不看 reasoning token，但被计费
print(response.choices[0].message.content)
print(f"Reasoning tokens used: {response.usage.completion_tokens_details.reasoning_tokens}")

API 差别：

不支持流式输出
不支持 system prompt（多数版本）
不支持函数调用（部分版本）
响应时间数十秒到几分钟

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。