HelloAI
📄 论文精读 🏆 必读经典 · 2022 · DeepMind 2022

Training Compute-Optimal Large Language Models (Chinchilla)

Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, et al.
TL;DR
DeepMind 证明 GPT-3 等大模型"参数太多、数据太少"。给出了"算力如何在参数和数据间最优分配"的新法则——重塑了大模型训练。
#Chinchilla#Scaling Laws#训练#必读

为什么这篇论文重要

2020 年 OpenAI 发了 Scaling Laws 论文—— 大家以为”加大参数 = 越好”—— 所以 GPT-3 (175B) 比 GPT-2 (1.5B) 大 100×。

2022 年 DeepMind 这篇 Chinchilla 论文打破认知:

GPT-3 和其它大模型实际上”参数过多、数据不足”——浪费了大量算力。

他们用 70B 参数 + 1.4T tokens 训了 Chinchilla—— 击败了 280B 参数的 Gopher 和 175B 的 GPT-3。

核心结论

给定算力预算 —— 参数和数据应该 1:1 缩放

这彻底改变了之后所有大模型的设计。

论文的核心发现

新的 Scaling Laws

DeepMind 训了400+ 个不同尺寸的模型—— 系统研究”在给定算力下,参数 N 和数据 D 怎么分?”

惊人结论

  • OpenAI 2020 Scaling Laws:建议参数 >> 数据
  • Chinchilla 修正参数 ≈ 20 倍 token 数

具体公式:

NoptimalC0.5N_{optimal} \propto C^{0.5} DoptimalC0.5D_{optimal} \propto C^{0.5}

其中 CC 是算力(FLOPs)。 两者同比例增长

实际意义

给一定算力(如 GPT-3 训练时的算力)—— Chinchilla 计算:

  • GPT-3 用了 175B 参数 + 300B tokens → 浪费!
  • 最优应该是 ~62B 参数 + ~1.4T tokens

意思是——GPT-3 的训练应该用更多数据 + 更小模型—— 不是”加参数到 175B”。

Chinchilla 模型

为了证明这一点——DeepMind 训了 Chinchilla:

  • 70B 参数(比 Gopher 280B 小 4×)
  • 1.4T tokens(4× 比 Gopher 多)
  • 总算力与 Gopher 相同
任务Gopher (280B)Chinchilla (70B)
MMLU60.067.5
BIG-bench54.465.1
TruthfulQA28.043.6
Reading71.677.4

Chinchilla 全面碾压 Gopher—— 4× 小,但全面更强

这是论文最有说服力的部分—— 不是数学论证,是实证

论文之后的影响

1. 所有大模型重训

2022 年后,所有大公司重新评估他们的训练策略:

  • OpenAI:GPT-4 用了更多数据 + 更精细的模型设计
  • Meta:LLaMA 系列严格按 Chinchilla 法则
  • Anthropic:Claude 训练吸收 Chinchilla 经验
  • Google:PaLM 2 / Gemini 重新平衡

2. LLaMA 的胜利

Meta 2023 发 LLaMA—— 完全按 Chinchilla 法则

  • 7B 模型用 1T tokens
  • 13B 模型用 1T tokens
  • 等等

LLaMA 在所有 benchmark 上击败更大的 GPT-3—— 证明 Chinchilla 法则的实战价值。

这是开源 LLM 革命的起点—— Chinchilla 间接催生了 LLaMA。

3. 数据 vs 参数的新认知

之前思路: “加参数 = 加 capacity = 加能力”

Chinchilla 后: “参数 + 数据 同等重要——数据可能更重要”

引出之后的:

  • 数据质量研究(Phi 系列)
  • 数据合成(GPT-4 合成训练数据)
  • 数据集 curate(FineWeb 等)

“数据 engineer”成为 LLM 工程师的稀缺技能。

一些反思

”原 Scaling Laws 错了吗”

不算错—— 两份论文都是对的,但有不同假设

  • OpenAI 2020:固定少量数据,看参数怎么变最优
  • Chinchilla 2022:固定总算力预算,看怎么分参数和数据

两者研究的问题不同—— 但 Chinchilla 的实际意义更大(实际限制是算力,不是数据)。

“Chinchilla 还成立吗”

部分成立 + 部分被推翻

仍然成立:参数过多浪费数据。 ✅ 仍然成立:训练时投资数据。

被部分推翻:现代 LLM 经常远超 Chinchilla 最优数据量—— 原因:训完之后推理便宜比训练时省更重要。

LLaMA 3 405B 训了 15T tokens—— 远超 Chinchilla “最优”约 8T。 过度训练 + 更便宜推理 是新趋势。

Chinchilla 的局限

后来发现:

  • 不同任务类型,最优比例不同
  • 数据质量 比”是否够数量”更重要
  • 训练超过 Chinchilla 最优 仍能提升(虽然 ROI 降低)
  • 多模态、代码、推理等任务,scaling laws 不一样

Chinchilla 的核心 insight 仍然有价值别只想着加参数,加数据同等重要

一些数字

来自 Chinchilla 论文的表格—— 给定算力下,参数 / 数据如何最优分

算力 (FLOPs)最优 N (params)最优 D (tokens)
6e18400M8.0B
1e201B20.2B
1e2210B205.1B
5e23100B2025B (~2T)
5e24 (GPT-3 量级)~62B~1.4T
1e261T22T

Chinchilla optimal” 数据点—— 训练大模型时必查的表

推荐配套阅读

  • HelloAI: L4-01 LLM 训练 + L7-02 分布式训练
  • Chinchilla 原论文
  • OpenAI Scaling Laws (2020) —— 前作
  • Compute-Optimal Inference(2023)—— 修正
  • LLaMA 报告 —— 实战应用 Chinchilla
💡 一个工程教训

别盲目追”更大模型”

  • GPT-3 (175B) 因为 Chinchilla 法则——在某些任务上不如 70B 训练充分的模型
  • 训练资源有限时——增加数据比加参数更值

这教训适用于所有 ML 项目先调数据 + 训练时长,再考虑加参数

📬

想要更多论文精读

订阅每周精选 —— 下一篇论文笔记直接送邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。