📄 论文精读 🏆 必读经典 · 2020 · OpenAI 2020

Scaling Laws for Neural Language Models

Jared Kaplan, Sam McCandlish, Tom Henighan, et al.

arXiv:2001.08361 →

📖 如果你只读一段，读这段

OpenAI 2020 年的奠基性发现——"模型损失随参数、数据、算力呈幂律下降"。这条曲线是 GPT-3、GPT-4 等大模型投资的理论基础。

#Scaling Laws#理论#OpenAI#必读

为什么这篇论文重要

2020 年 OpenAI 这篇论文揭示了 LLM 训练的一个深刻规律：

模型损失（loss）随参数 N、数据 D、算力 C 呈幂律（power law）下降——没有看到天花板。

不是渐近——是预测性的：

给我多少算力 → 我能告诉你”最优”参数、数据、达到的 loss
给我目标 loss → 我能告诉你”需要多少算力”

这条曲线就是 OpenAI 押宝 GPT-3、GPT-4 的”信仰来源”—— 因为论文显示：只要继续 scale，能力会持续增长。

三大变量

论文研究三个独立可控变量：

N：模型参数数量
D：训练数据 token 数
C：训练算力（FLOPs）

发现三者满足：

L(N) = (N_c / N)^{\alpha_N}, \quad \alpha_N \approx 0.076

L(D) = (D_c / D)^{\alpha_D}, \quad \alpha_D \approx 0.095

L(C) = (C_c / C)^{\alpha_C}, \quad \alpha_C \approx 0.050

翻译：每翻倍 N / D / C —— loss 大约下降固定百分比—— 在很广的范围内成立。

直观意义

想要 loss 降一半	需要
参数 × N 倍	N ≈ 2^(1/0.076) ≈ 9000
数据 × D 倍	D ≈ 2^(1/0.095) ≈ 1500
算力 × C 倍	C ≈ 2^(1/0.050) ≈ 大量

简单说：loss 改善慢—— 但只要持续投入算力，能持续改善。

论文的几个发现

1. 网络架构 / hyperparameters 影响相对小

只要架构合理（Transformer 类）—— 层数、形状、激活函数等细节相对不重要。

主要看 N、D、C 三个变量。

这反直觉——我们以为”架构很重要”—— 实际”规模”压过架构。

2. Smooth scaling

随 N / D / C 平滑变化—— 没有突然的”质变”。

这是早期观察——后来发现某些能力确实有涌现现象（emergent abilities）。

3. 算力分配

固定 C 时：

应该如何分给 N 和 D？
论文建议：N 优先——也就是大模型 + 少数据

这导致 GPT-3 (175B + 300B tokens) —— 后来 Chinchilla 证明这是错的。

论文的影响

1. OpenAI 的”信仰来源”

Scaling Laws 让 OpenAI 团队相信： 只要继续 scale，能力会持续增长—— 没必要等待新算法突破。

这直接导致：

GPT-2 (1.5B) → GPT-3 (175B)（100× 放大）
GPT-3 → GPT-4 (估 1.7T MoE)（10× 放大）

没这论文——可能没有 GPT-3。

2. AI 投资逻辑

Scaling Laws 让 AI 公司估值飙升：

“算力 = 性能” —— 投资算力 = 投资未来。

NVIDIA 股价飙升、GPU 紧缺、数据中心建设潮—— 部分由这条曲线驱动。

3. 推动算力军备竞赛

从 GPT-3 到 GPT-4 的 4 年里—— 全球训练算力增长 100×。

各国 / 各公司争抢 GPU—— Scaling Laws 是这场军备竞赛的”理论支柱”。

Chinchilla 的修正

L4-01 / Chinchilla 论文我们详讲过—— 2022 年 DeepMind 修正了 Scaling Laws：

OpenAI 原版：N 优先（参数为重） Chinchilla：N 和 D 同等重要——按 ~1:20 比例。

这两份论文有不同假设：

OpenAI 假设：数据充足，限制是模型大小
Chinchilla 假设：算力固定，看 N/D 怎么分

两者都对—— 但 Chinchilla 的实际意义更大。

Scaling Laws 还有效吗

仍然成立的部分

基础 loss 下降：参数 + 数据 + 算力 → loss 下降，至今成立
平滑性：scale 时 loss 平滑变化（绝大多数任务）
跨任务通用：从图像到文本到代码，都有 scaling laws

部分被修正

N vs D 比例：Chinchilla 修正
涌现能力：某些能力突然出现（不平滑）
超训练：超过 Chinchilla 最优数据量仍能提升

新的方向

2024 后新的 scaling laws：

Test-time compute scaling（o1 / o3）——推理时间也是变量
Multi-modal scaling——多模态有自己的曲线
Data quality scaling——质量也是变量

这条曲线还能延伸多远

支持继续 scale 的：

没看到 loss 饱和
新能力持续涌现
投资 + 算力都增长

反对者：

数据可能不够（互联网就那么多）
算力成本指数增长
边际收益减少（GPT-5 vs GPT-4 提升幅度）

真实情况：渐近—— 我们可能在 2027-2028 看到”明显的边际收益减少”。

但即使如此—— Scaling Laws 还是 AI 史上最重要的”工程指南针”之一。

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。