Training Compute-Optimal Large Language Models (Chinchilla)
为什么这篇论文重要
2020 年 OpenAI 发了 Scaling Laws 论文—— 大家以为”加大参数 = 越好”—— 所以 GPT-3 (175B) 比 GPT-2 (1.5B) 大 100×。
2022 年 DeepMind 这篇 Chinchilla 论文打破认知:
GPT-3 和其它大模型实际上”参数过多、数据不足”——浪费了大量算力。
他们用 70B 参数 + 1.4T tokens 训了 Chinchilla—— 击败了 280B 参数的 Gopher 和 175B 的 GPT-3。
核心结论:
给定算力预算 —— 参数和数据应该 1:1 缩放。
这彻底改变了之后所有大模型的设计。
论文的核心发现
新的 Scaling Laws
DeepMind 训了400+ 个不同尺寸的模型—— 系统研究”在给定算力下,参数 N 和数据 D 怎么分?”
惊人结论:
- OpenAI 2020 Scaling Laws:建议参数 >> 数据
- Chinchilla 修正:参数 ≈ 20 倍 token 数
具体公式:
其中 是算力(FLOPs)。 两者同比例增长。
实际意义
给一定算力(如 GPT-3 训练时的算力)—— Chinchilla 计算:
- GPT-3 用了 175B 参数 + 300B tokens → 浪费!
- 最优应该是 ~62B 参数 + ~1.4T tokens
意思是——GPT-3 的训练应该用更多数据 + 更小模型—— 不是”加参数到 175B”。
Chinchilla 模型
为了证明这一点——DeepMind 训了 Chinchilla:
- 70B 参数(比 Gopher 280B 小 4×)
- 1.4T tokens(4× 比 Gopher 多)
- 总算力与 Gopher 相同
| 任务 | Gopher (280B) | Chinchilla (70B) |
|---|---|---|
| MMLU | 60.0 | 67.5 |
| BIG-bench | 54.4 | 65.1 |
| TruthfulQA | 28.0 | 43.6 |
| Reading | 71.6 | 77.4 |
Chinchilla 全面碾压 Gopher—— 4× 小,但全面更强。
这是论文最有说服力的部分—— 不是数学论证,是实证。
论文之后的影响
1. 所有大模型重训
2022 年后,所有大公司重新评估他们的训练策略:
- OpenAI:GPT-4 用了更多数据 + 更精细的模型设计
- Meta:LLaMA 系列严格按 Chinchilla 法则
- Anthropic:Claude 训练吸收 Chinchilla 经验
- Google:PaLM 2 / Gemini 重新平衡
2. LLaMA 的胜利
Meta 2023 发 LLaMA—— 完全按 Chinchilla 法则:
- 7B 模型用 1T tokens
- 13B 模型用 1T tokens
- 等等
LLaMA 在所有 benchmark 上击败更大的 GPT-3—— 证明 Chinchilla 法则的实战价值。
这是开源 LLM 革命的起点—— Chinchilla 间接催生了 LLaMA。
3. 数据 vs 参数的新认知
之前思路: “加参数 = 加 capacity = 加能力”
Chinchilla 后: “参数 + 数据 同等重要——数据可能更重要”
引出之后的:
- 数据质量研究(Phi 系列)
- 数据合成(GPT-4 合成训练数据)
- 数据集 curate(FineWeb 等)
“数据 engineer”成为 LLM 工程师的稀缺技能。
一些反思
”原 Scaling Laws 错了吗”
不算错—— 两份论文都是对的,但有不同假设:
- OpenAI 2020:固定少量数据,看参数怎么变最优
- Chinchilla 2022:固定总算力预算,看怎么分参数和数据
两者研究的问题不同—— 但 Chinchilla 的实际意义更大(实际限制是算力,不是数据)。
“Chinchilla 还成立吗”
部分成立 + 部分被推翻:
✅ 仍然成立:参数过多浪费数据。 ✅ 仍然成立:训练时投资数据。
❌ 被部分推翻:现代 LLM 经常远超 Chinchilla 最优数据量—— 原因:训完之后推理便宜比训练时省更重要。
LLaMA 3 405B 训了 15T tokens—— 远超 Chinchilla “最优”约 8T。 过度训练 + 更便宜推理 是新趋势。
Chinchilla 的局限
后来发现:
- 不同任务类型,最优比例不同
- 数据质量 比”是否够数量”更重要
- 训练超过 Chinchilla 最优 仍能提升(虽然 ROI 降低)
- 多模态、代码、推理等任务,scaling laws 不一样
但Chinchilla 的核心 insight 仍然有价值: 别只想着加参数,加数据同等重要。
一些数字
来自 Chinchilla 论文的表格—— 给定算力下,参数 / 数据如何最优分:
| 算力 (FLOPs) | 最优 N (params) | 最优 D (tokens) |
|---|---|---|
| 6e18 | 400M | 8.0B |
| 1e20 | 1B | 20.2B |
| 1e22 | 10B | 205.1B |
| 5e23 | 100B | 2025B (~2T) |
| 5e24 (GPT-3 量级) | ~62B | ~1.4T |
| 1e26 | 1T | 22T |
“Chinchilla optimal” 数据点—— 训练大模型时必查的表。
推荐配套阅读
- HelloAI: L4-01 LLM 训练 + L7-02 分布式训练
- Chinchilla 原论文
- OpenAI Scaling Laws (2020) —— 前作
- Compute-Optimal Inference(2023)—— 修正
- LLaMA 报告 —— 实战应用 Chinchilla
别盲目追”更大模型”:
- GPT-3 (175B) 因为 Chinchilla 法则——在某些任务上不如 70B 训练充分的模型
- 训练资源有限时——增加数据比加参数更值
这教训适用于所有 ML 项目: 先调数据 + 训练时长,再考虑加参数。
想要更多论文精读
订阅每周精选 —— 下一篇论文笔记直接送邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。