Learning to Reason with LLMs (OpenAI o1)
为什么这篇报告重要
2024 年 9 月 OpenAI 发布 o1(“Strawberry”)—— 第一个公开的”推理模型”(reasoning model)。
不像 GPT-4 那样”看到问题立刻答”—— o1 会先”长时间思考”,再给最终回答。
复杂任务上准确率大幅提升:
- 数学奥赛(AIME):83.3%(GPT-4o:13.4%)
- 物理博士题目:~78%
- 编程比赛 Codeforces:第 89 百分位
这不是渐进改善——这是范式转变。
核心思路:推理时计算(Test-Time Compute)
之前的范式:
训练时投资 → 推理时小成本 → 直接出答案
o1 的范式:
训练时投资 → 推理时再投资(“思考” CoT)→ 出答案
具体来说—— o1 内部生成一个很长的 chain-of-thought(可能几千个 token 的内部推理)—— 然后只把最终答案给用户看。
用户看到的是”答案”——但模型已经”想”了很多。
一个真实例子
问题:找出 4 个连续整数,其平方和是 1234。
GPT-4 通常直接猜——错。
o1 会内部生成(用户不可见):
让我想想。
四个连续整数: n, n+1, n+2, n+3
平方和 = n² + (n+1)² + (n+2)² + (n+3)²
= n² + n² + 2n + 1 + n² + 4n + 4 + n² + 6n + 9
= 4n² + 12n + 14
设 = 1234,那 4n² + 12n + 14 = 1234
4n² + 12n - 1220 = 0
n² + 3n - 305 = 0
判别式 = 9 + 1220 = 1229
√1229 ≈ 35.06
n = (-3 + 35.06) / 2 ≈ 16.03
不是整数。检查我的代数...
实际上让我重做。设 n=16:
16² + 17² + 18² + 19² = 256 + 289 + 324 + 361 = 1230 ≠ 1234
设 n=17:
17² + 18² + 19² + 20² = 289 + 324 + 361 + 400 = 1374 ≠ 1234
似乎没有正整数解。让我考虑负数...
经过多次尝试,结论是没有解。
用户只看到:“没有满足条件的连续整数。”
但内部有几千 token 的探索 + 错误 + 自纠。 这就是 o1 的工作方式。
训练方法(部分披露)
OpenAI 没公开完整训练流程——但披露了几点:
1. 强化学习
o1 用 大规模 RL 训练—— 学习”什么样的推理过程导致正确答案”。
不同于 RLHF(基于人类偏好)—— 这是基于”答案对错”的 RL——更接近 AlphaGo 的思路。
2. Chain-of-Thought 是训练目标
模型被训练生成可验证的推理步骤—— 而不只是”输出答案”。
3. Process supervision
不只验证最终答案,还验证中间步骤:
传统:只看最终是否对
process supervision:每一步推理是否合理
这让模型学到”如何思考”,不只是”如何说对的话”。
4. Reasoning tokens
o1 用专门的”推理 token”做内部思考—— 用户不可见,OpenAI 收费时算进去。
性能数据
在挑战性任务上
| 任务 | GPT-4o | o1 |
|---|---|---|
| AIME 2024 (数学奥赛) | 13.4% | 83.3% |
| Codeforces (编程) | 11% | 89% percentile |
| GPQA (PhD 物理) | 56% | 78% |
| MATH | 60% | 94% |
复杂推理任务上几倍提升。
但简单任务上无明显改善
| 任务 | GPT-4o | o1 |
|---|---|---|
| 闲聊 | 强 | 强(无明显差异) |
| 写邮件 | 强 | 强 |
| 总结摘要 | 强 | 强 |
o1 适合”难”任务,不适合”日常”任务—— 而且推理时间长(30 秒 - 几分钟),用户体验差。
为什么这是范式转变
之前 LLM 的进步主要靠训练时投资:
- 更多参数
- 更多数据
- 更多 GPU
o1 开启了”推理时投资”的方向—— 给同一个模型更多思考时间,能力质变。
OpenAI 提出:“Scaling laws extend to test-time compute”—— 测试时计算量翻倍,准确率持续上升。
这意味着:更聪明的 AI 可能不需要更大的模型——只需要更多思考时间。 一个巨大的研究方向。
o1 之后
OpenAI o1 / o3
2024 年底 OpenAI 发布 o3——比 o1 又强。 在 ARC-AGI 基准上突破 85%(人类水平 95%)—— 被广泛认为是接近 AGI 的信号。
Claude 4 Thinking
Anthropic 2025 推出 Claude 4 Thinking 模式—— 类似 o1 的”先思考再回答”。
Gemini 2 Pro Reasoning
Google 也跟进。
开源 reasoning 模型
- DeepSeek R1(2025):开源 reasoning 模型,性能接近 o1
- QwQ(阿里)
- Marco-o1(阿里)
2025-2026 年是”推理模型”年——所有大公司都跟进。
学术研究爆发
- Process Reward Models(验证推理步骤)
- Tree of Thoughts(多分支搜索推理)
- Self-consistency 进阶版
一些限制
1. 慢
复杂问题需要几十秒甚至几分钟思考—— 用户体验差。
不能用作实时对话。
2. 贵
o1 每次调用消耗大量 reasoning token—— API 费用是 GPT-4 的 4-10 倍。
每答一个难题 $0.5-2 美元——只值高价值场景。
3. 不会”自适应”
o1 对所有问题都长时间思考—— 即使是”今天天气如何”。 没学到”何时简短回答 vs 何时深思”。
4. 推理过程不可见
OpenAI 不显示内部 CoT——怕被竞争对手抄。 这让用户无法看到推理过程——降低了可信度。
部分研究者也批评:“如果推理不透明,怎么判断它是真推理还是模仿”。
5. 在某些任务上无改善
闲聊、简单问答上—— o1 表现和 GPT-4 几乎相同。 不是万能丹。
哲学问题
”o1 真的在’推理’吗”
支持者:
- 它能做之前模型做不到的事
- CoT 长度和准确率正相关
- 处理过程显示真实的”试错和回溯”
怀疑者:
- 仍然只是 token 预测的延伸
- “推理”可能只是模仿训练数据里的推理模式
- 没有真正的”理解”
这又回到了 L0-06 “什么是智能” 的争论。 没有共识——也许永远不会有。
“scaling test-time 还能走多远”
理论上——给更多时间,o1 应该一直变强。 但有物理极限:
- 上下文长度有限
- 计算成本指数级增长
- 注意力质量在超长上下文下降
我们可能在 2-3 年内看到这条曲线的天花板。
用户角度的影响
1. AI 不再是”一秒一答”
习惯了 ChatGPT 即问即答—— o1 让你等 30 秒-几分钟。 改变了”AI 体验”的定义。
2. “深度”vs”速度”分化
未来产品可能分:
- 快模型:日常对话,秒级响应(GPT-4o)
- 深模型:研究 / 复杂任务,分钟级响应(o1)
像 Google 搜索 vs 学术研究。
3. AI 在数学 / 编程 / 科研的能力大跃迁
o1 在 IMO 题目上超过国际金牌—— 意味着 AI 在最难的智力任务上接近顶尖人类。
代码 / API 使用
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="o1-preview", # 或 "o1", "o3-mini"
messages=[{"role": "user", "content": "解决以下数学题: ..."}],
# 注意:o1 不支持 system prompt、不支持 streaming、不支持 tool use(部分)
)
# 关键不同:用户不看 reasoning token,但被计费
print(response.choices[0].message.content)
print(f"Reasoning tokens used: {response.usage.completion_tokens_details.reasoning_tokens}")
API 差别:
- 不支持流式输出
- 不支持 system prompt(多数版本)
- 不支持函数调用(部分版本)
- 响应时间数十秒到几分钟
推荐配套阅读
- HelloAI: L4-02 Prompt 进阶 + L4-06 In-Context Learning
- OpenAI o1 official announcement —— 主报告
- OpenAI o3 ARC-AGI 报告(2024 末)
- DeepSeek R1 论文(开源对标)
- “Thinking Fast and Slow with Deep Learning” —— 类比 Kahneman 双系统理论
o1 改变了”LLM 进步”的定义:
之前:模型越大越聪明 现在:让模型多想越聪明
如果 test-time compute scaling 持续—— 未来的”超级智能”可能不是更大的模型,是想得更久的模型。
这是 AI 时代下一个 5-10 年的核心方向之一。
想要更多论文精读
订阅每周精选 —— 下一篇论文笔记直接送邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。