📄 论文精读 🏆 必读经典 · 2022 · DeepMind 2022

Training Compute-Optimal Large Language Models (Chinchilla)

Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, et al.

arXiv:2203.15556 →

📖 如果你只读一段，读这段

DeepMind 证明 GPT-3 等大模型"参数太多、数据太少"。给出了"算力如何在参数和数据间最优分配"的新法则——重塑了大模型训练。

#Chinchilla#Scaling Laws#训练#必读

为什么这篇论文重要

2020 年 OpenAI 发了 Scaling Laws 论文—— 大家以为”加大参数 = 越好”—— 所以 GPT-3 (175B) 比 GPT-2 (1.5B) 大 100×。

2022 年 DeepMind 这篇 Chinchilla 论文打破认知：

GPT-3 和其它大模型实际上”参数过多、数据不足”——浪费了大量算力。

他们用 70B 参数 + 1.4T tokens 训了 Chinchilla—— 击败了 280B 参数的 Gopher 和 175B 的 GPT-3。

核心结论：

给定算力预算 —— 参数和数据应该 1:1 缩放。

这彻底改变了之后所有大模型的设计。

论文的核心发现

新的 Scaling Laws

DeepMind 训了400+ 个不同尺寸的模型—— 系统研究”在给定算力下，参数 N 和数据 D 怎么分？”

惊人结论：

OpenAI 2020 Scaling Laws：建议参数 >> 数据
Chinchilla 修正：参数 ≈ 20 倍 token 数

具体公式：

N_{optimal} \propto C^{0.5}

D_{optimal} \propto C^{0.5}

其中 $C$ 是算力（FLOPs）。两者同比例增长。

实际意义

给一定算力（如 GPT-3 训练时的算力）—— Chinchilla 计算：

GPT-3 用了 175B 参数 + 300B tokens → 浪费！
最优应该是 ~62B 参数 + ~1.4T tokens

意思是——GPT-3 的训练应该用更多数据 + 更小模型—— 不是”加参数到 175B”。

Chinchilla 模型

为了证明这一点——DeepMind 训了 Chinchilla：

70B 参数（比 Gopher 280B 小 4×）
1.4T tokens（4× 比 Gopher 多）
总算力与 Gopher 相同

任务	Gopher (280B)	Chinchilla (70B)
MMLU	60.0	67.5
BIG-bench	54.4	65.1
TruthfulQA	28.0	43.6
Reading	71.6	77.4

Chinchilla 全面碾压 Gopher—— 4× 小，但全面更强。

这是论文最有说服力的部分—— 不是数学论证，是实证。

论文之后的影响

1. 所有大模型重训

2022 年后，所有大公司重新评估他们的训练策略：

OpenAI：GPT-4 用了更多数据 + 更精细的模型设计
Meta：LLaMA 系列严格按 Chinchilla 法则
Anthropic：Claude 训练吸收 Chinchilla 经验
Google：PaLM 2 / Gemini 重新平衡

2. LLaMA 的胜利

Meta 2023 发 LLaMA—— 完全按 Chinchilla 法则：

7B 模型用 1T tokens
13B 模型用 1T tokens
等等

LLaMA 在所有 benchmark 上击败更大的 GPT-3—— 证明 Chinchilla 法则的实战价值。

这是开源 LLM 革命的起点—— Chinchilla 间接催生了 LLaMA。

3. 数据 vs 参数的新认知

之前思路： “加参数 = 加 capacity = 加能力”

Chinchilla 后： “参数 + 数据同等重要——数据可能更重要”

引出之后的：

数据质量研究（Phi 系列）
数据合成（GPT-4 合成训练数据）
数据集 curate（FineWeb 等）

“数据 engineer”成为 LLM 工程师的稀缺技能。

一些反思

”原 Scaling Laws 错了吗”

不算错—— 两份论文都是对的，但有不同假设：

OpenAI 2020：固定少量数据，看参数怎么变最优
Chinchilla 2022：固定总算力预算，看怎么分参数和数据

两者研究的问题不同—— 但 Chinchilla 的实际意义更大（实际限制是算力，不是数据）。

“Chinchilla 还成立吗”

部分成立 + 部分被推翻：

✅ 仍然成立：参数过多浪费数据。 ✅ 仍然成立：训练时投资数据。

❌ 被部分推翻：现代 LLM 经常远超 Chinchilla 最优数据量—— 原因：训完之后推理便宜比训练时省更重要。

LLaMA 3 405B 训了 15T tokens—— 远超 Chinchilla “最优”约 8T。 过度训练 + 更便宜推理 是新趋势。

Chinchilla 的局限

后来发现：

不同任务类型，最优比例不同
数据质量比”是否够数量”更重要
训练超过 Chinchilla 最优仍能提升（虽然 ROI 降低）
多模态、代码、推理等任务，scaling laws 不一样

但Chinchilla 的核心 insight 仍然有价值： 别只想着加参数，加数据同等重要。

一些数字

来自 Chinchilla 论文的表格—— 给定算力下，参数 / 数据如何最优分：

算力 (FLOPs)	最优 N (params)	最优 D (tokens)
6e18	400M	8.0B
1e20	1B	20.2B
1e22	10B	205.1B
5e23	100B	2025B (~2T)
5e24 (GPT-3 量级)	~62B	~1.4T
1e26	1T	22T

“Chinchilla optimal” 数据点—— 训练大模型时必查的表。

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。