HelloAI
📄 论文精读 🏆 必读经典 · 2020 · OpenAI 2020

Scaling Laws for Neural Language Models

Jared Kaplan, Sam McCandlish, Tom Henighan, et al.
TL;DR
OpenAI 2020 年的奠基性发现——"模型损失随参数、数据、算力呈幂律下降"。这条曲线是 GPT-3、GPT-4 等大模型投资的理论基础。
#Scaling Laws#理论#OpenAI#必读

为什么这篇论文重要

2020 年 OpenAI 这篇论文揭示了 LLM 训练的一个深刻规律

模型损失(loss)随参数 N、数据 D、算力 C 呈幂律(power law)下降——没有看到天花板

不是渐近——是预测性的:

  • 给我多少算力 → 我能告诉你”最优”参数、数据、达到的 loss
  • 给我目标 loss → 我能告诉你”需要多少算力”

这条曲线就是 OpenAI 押宝 GPT-3、GPT-4 的”信仰来源”—— 因为论文显示:只要继续 scale,能力会持续增长

三大变量

论文研究三个独立可控变量:

  1. N:模型参数数量
  2. D:训练数据 token 数
  3. C:训练算力(FLOPs)

发现三者满足:

L(N)=(Nc/N)αN,αN0.076L(N) = (N_c / N)^{\alpha_N}, \quad \alpha_N \approx 0.076 L(D)=(Dc/D)αD,αD0.095L(D) = (D_c / D)^{\alpha_D}, \quad \alpha_D \approx 0.095 L(C)=(Cc/C)αC,αC0.050L(C) = (C_c / C)^{\alpha_C}, \quad \alpha_C \approx 0.050

翻译:每翻倍 N / D / C —— loss 大约下降固定百分比—— 在很广的范围内成立

直观意义

想要 loss 降一半需要
参数 × N 倍N ≈ 2^(1/0.076) ≈ 9000
数据 × D 倍D ≈ 2^(1/0.095) ≈ 1500
算力 × C 倍C ≈ 2^(1/0.050) ≈ 大量

简单说:loss 改善慢—— 但只要持续投入算力,能持续改善

论文的几个发现

1. 网络架构 / hyperparameters 影响相对小

只要架构合理(Transformer 类)—— 层数、形状、激活函数等细节相对不重要

主要看 N、D、C 三个变量

这反直觉——我们以为”架构很重要”—— 实际”规模”压过架构。

2. Smooth scaling

随 N / D / C 平滑变化—— 没有突然的”质变”

这是早期观察——后来发现某些能力确实有涌现现象(emergent abilities)。

3. 算力分配

固定 C 时:

  • 应该如何分给 N 和 D?
  • 论文建议:N 优先——也就是大模型 + 少数据

这导致 GPT-3 (175B + 300B tokens) —— 后来 Chinchilla 证明这是错的

论文的影响

1. OpenAI 的”信仰来源”

Scaling Laws 让 OpenAI 团队相信: 只要继续 scale,能力会持续增长—— 没必要等待新算法突破。

这直接导致:

  • GPT-2 (1.5B) → GPT-3 (175B)(100× 放大)
  • GPT-3 → GPT-4 (估 1.7T MoE)(10× 放大)

没这论文——可能没有 GPT-3

2. AI 投资逻辑

Scaling Laws 让 AI 公司估值飙升

算力 = 性能” —— 投资算力 = 投资未来。

NVIDIA 股价飙升、GPU 紧缺、数据中心建设潮—— 部分由这条曲线驱动

3. 推动算力军备竞赛

从 GPT-3 到 GPT-4 的 4 年里—— 全球训练算力增长 100×

各国 / 各公司争抢 GPU—— Scaling Laws 是这场军备竞赛的”理论支柱”

Chinchilla 的修正

L4-01 / Chinchilla 论文我们详讲过—— 2022 年 DeepMind 修正了 Scaling Laws:

OpenAI 原版:N 优先(参数为重) Chinchilla:N 和 D 同等重要——按 ~1:20 比例。

这两份论文有不同假设

  • OpenAI 假设:数据充足,限制是模型大小
  • Chinchilla 假设:算力固定,看 N/D 怎么分

两者都对—— 但 Chinchilla 的实际意义更大。

Scaling Laws 还有效吗

仍然成立的部分

  • 基础 loss 下降:参数 + 数据 + 算力 → loss 下降,至今成立
  • 平滑性:scale 时 loss 平滑变化(绝大多数任务)
  • 跨任务通用:从图像到文本到代码,都有 scaling laws

部分被修正

  • N vs D 比例:Chinchilla 修正
  • 涌现能力:某些能力突然出现(不平滑)
  • 超训练:超过 Chinchilla 最优数据量仍能提升

新的方向

2024 后新的 scaling laws

  • Test-time compute scaling(o1 / o3)——推理时间也是变量
  • Multi-modal scaling——多模态有自己的曲线
  • Data quality scaling——质量也是变量

这条曲线还能延伸多远

支持继续 scale 的:

  • 没看到 loss 饱和
  • 新能力持续涌现
  • 投资 + 算力都增长

反对者:

  • 数据可能不够(互联网就那么多)
  • 算力成本指数增长
  • 边际收益减少(GPT-5 vs GPT-4 提升幅度)

真实情况:渐近—— 我们可能在 2027-2028 看到”明显的边际收益减少”。

但即使如此—— Scaling Laws 还是 AI 史上最重要的”工程指南针”之一

推荐配套阅读

  • HelloAI: L4-01 LLM 训练 + L7-02 分布式训练
  • OpenAI Scaling Laws 原论文(2020)
  • Chinchilla 论文(2022)—— 修正
  • Beyond Chinchilla(2024)—— 超训练
  • Sutton’s “Bitter Lesson” —— 哲学版的同样观点
💡 一个真理

The Bitter Lesson(Rich Sutton 2019):

“70 年来 AI 的最大教训是—— 用更多算力和通用方法 比 巧妙的人工方法更有效”。

Scaling Laws 数学上证实了这点—— “加算力 + 加数据” > “聪明的算法”

虽然 AI 研究者不喜欢这个结论—— 但事实如此

Scaling Laws 是 AI 时代的”摩尔定律”—— 不是物理定律,是经验观察—— 但正在塑造整个行业

📬

想要更多论文精读

订阅每周精选 —— 下一篇论文笔记直接送邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。