Scaling Laws for Neural Language Models
为什么这篇论文重要
2020 年 OpenAI 这篇论文揭示了 LLM 训练的一个深刻规律:
模型损失(loss)随参数 N、数据 D、算力 C 呈幂律(power law)下降——没有看到天花板。
不是渐近——是预测性的:
- 给我多少算力 → 我能告诉你”最优”参数、数据、达到的 loss
- 给我目标 loss → 我能告诉你”需要多少算力”
这条曲线就是 OpenAI 押宝 GPT-3、GPT-4 的”信仰来源”—— 因为论文显示:只要继续 scale,能力会持续增长。
三大变量
论文研究三个独立可控变量:
- N:模型参数数量
- D:训练数据 token 数
- C:训练算力(FLOPs)
发现三者满足:
翻译:每翻倍 N / D / C —— loss 大约下降固定百分比—— 在很广的范围内成立。
直观意义
| 想要 loss 降一半 | 需要 |
|---|---|
| 参数 × N 倍 | N ≈ 2^(1/0.076) ≈ 9000 |
| 数据 × D 倍 | D ≈ 2^(1/0.095) ≈ 1500 |
| 算力 × C 倍 | C ≈ 2^(1/0.050) ≈ 大量 |
简单说:loss 改善慢—— 但只要持续投入算力,能持续改善。
论文的几个发现
1. 网络架构 / hyperparameters 影响相对小
只要架构合理(Transformer 类)—— 层数、形状、激活函数等细节相对不重要。
主要看 N、D、C 三个变量。
这反直觉——我们以为”架构很重要”—— 实际”规模”压过架构。
2. Smooth scaling
随 N / D / C 平滑变化—— 没有突然的”质变”。
这是早期观察——后来发现某些能力确实有涌现现象(emergent abilities)。
3. 算力分配
固定 C 时:
- 应该如何分给 N 和 D?
- 论文建议:N 优先——也就是大模型 + 少数据
这导致 GPT-3 (175B + 300B tokens) —— 后来 Chinchilla 证明这是错的。
论文的影响
1. OpenAI 的”信仰来源”
Scaling Laws 让 OpenAI 团队相信: 只要继续 scale,能力会持续增长—— 没必要等待新算法突破。
这直接导致:
- GPT-2 (1.5B) → GPT-3 (175B)(100× 放大)
- GPT-3 → GPT-4 (估 1.7T MoE)(10× 放大)
没这论文——可能没有 GPT-3。
2. AI 投资逻辑
Scaling Laws 让 AI 公司估值飙升:
“算力 = 性能” —— 投资算力 = 投资未来。
NVIDIA 股价飙升、GPU 紧缺、数据中心建设潮—— 部分由这条曲线驱动。
3. 推动算力军备竞赛
从 GPT-3 到 GPT-4 的 4 年里—— 全球训练算力增长 100×。
各国 / 各公司争抢 GPU—— Scaling Laws 是这场军备竞赛的”理论支柱”。
Chinchilla 的修正
L4-01 / Chinchilla 论文我们详讲过—— 2022 年 DeepMind 修正了 Scaling Laws:
OpenAI 原版:N 优先(参数为重) Chinchilla:N 和 D 同等重要——按 ~1:20 比例。
这两份论文有不同假设:
- OpenAI 假设:数据充足,限制是模型大小
- Chinchilla 假设:算力固定,看 N/D 怎么分
两者都对—— 但 Chinchilla 的实际意义更大。
Scaling Laws 还有效吗
仍然成立的部分
- 基础 loss 下降:参数 + 数据 + 算力 → loss 下降,至今成立
- 平滑性:scale 时 loss 平滑变化(绝大多数任务)
- 跨任务通用:从图像到文本到代码,都有 scaling laws
部分被修正
- N vs D 比例:Chinchilla 修正
- 涌现能力:某些能力突然出现(不平滑)
- 超训练:超过 Chinchilla 最优数据量仍能提升
新的方向
2024 后新的 scaling laws:
- Test-time compute scaling(o1 / o3)——推理时间也是变量
- Multi-modal scaling——多模态有自己的曲线
- Data quality scaling——质量也是变量
这条曲线还能延伸多远
支持继续 scale 的:
- 没看到 loss 饱和
- 新能力持续涌现
- 投资 + 算力都增长
反对者:
- 数据可能不够(互联网就那么多)
- 算力成本指数增长
- 边际收益减少(GPT-5 vs GPT-4 提升幅度)
真实情况:渐近—— 我们可能在 2027-2028 看到”明显的边际收益减少”。
但即使如此—— Scaling Laws 还是 AI 史上最重要的”工程指南针”之一。
推荐配套阅读
- HelloAI: L4-01 LLM 训练 + L7-02 分布式训练
- OpenAI Scaling Laws 原论文(2020)
- Chinchilla 论文(2022)—— 修正
- Beyond Chinchilla(2024)—— 超训练
- Sutton’s “Bitter Lesson” —— 哲学版的同样观点
The Bitter Lesson(Rich Sutton 2019):
“70 年来 AI 的最大教训是—— 用更多算力和通用方法 比 巧妙的人工方法更有效”。
Scaling Laws 数学上证实了这点—— “加算力 + 加数据” > “聪明的算法”。
虽然 AI 研究者不喜欢这个结论—— 但事实如此。
Scaling Laws 是 AI 时代的”摩尔定律”—— 不是物理定律,是经验观察—— 但正在塑造整个行业。
想要更多论文精读
订阅每周精选 —— 下一篇论文笔记直接送邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。