HelloAI
📄 论文精读 🏆 必读经典 · 2020 · NeurIPS 2020

Language Models are Few-Shot Learners (GPT-3)

Tom B. Brown, Benjamin Mann, Nick Ryder, et al.
TL;DR
175B 参数的 GPT-3 展示了"in-context learning"——不微调,只给几个例子就能学会新任务。这篇论文重新定义了人们对 LLM 的预期。
#GPT-3#LLM#Few-shot#必读

为什么这篇论文重要

2020 年这篇 75 页论文做了一件改变历史的事——

把 GPT-2 的 15 亿参数扩到 1750 亿,证明了一个惊人的现象:LLM 不微调就能学新任务

只要在 prompt 里给几个例子(“few-shot”)—— 模型自己悟出来怎么做。

这是 LLM 从”工具”变成”通用助手”的起点。没有这篇论文,没有 ChatGPT

三个革命性发现

发现 1:模型大到一定程度,能力会”涌现”

13 亿参数:只会续写文章。 175 亿参数:能做翻译、问答、算术、推理。 1750 亿参数:能编程、能创作、能推理多步。

这种”突然在某个规模上获得能力”的现象——叫 Emergent Abilities(涌现能力)

这是 OpenAI 后续坚信”Scale Is All You Need”的源头。 也是后续 GPT-4 / GPT-5 一路堆参数的原因。

发现 2:In-Context Learning(情境学习)

不需要微调——只要在 prompt 里给几个例子

英 → 中:
hello → 你好
goodbye → 再见
thank you → ???

GPT-3 能直接答”谢谢”—— 没改任何参数,只看了几个例子。

这是机器学习史上从未见过的范式。 之前所有模型都必须为每个任务训练。GPT-3 让 “prompt = 编程” 成为可能。

发现 3:Scaling Laws

论文里 OpenAI 公开了一些规律性发现——

模型损失(loss)随参数、数据、算力呈幂律下降。

这条曲线到 2023 年仍然成立——也是 Anthropic 等后续投入大模型的信心来源。

GPT-3 的训练规模

  • 参数:175B
  • 训练数据:约 570GB 文本(去重后)
  • 训练算力:约 3.14 × 10²³ FLOPs
  • 训练成本:估约 $460 万美元
  • 训练时长:几个月

当年这个规模是全世界最大的训练。今天 GPT-4 据估算是这个的 5-10 倍。

实验结果

在各类 NLP 任务上

任务Few-shot 准确率SOTA(专门微调)
翻译(En-Fr)32 BLEU35
阅读理解(SQuAD)71%91%
算术(3 位数加法)80%(没有专门 baseline)
自然语言推理70%91%

比专门微调的 SOTA 略差——但完全不需要微调和领域数据。这是关键。

Few-shot vs Zero-shot vs Fine-tuning

设定输入准确率(典型)
Zero-shot直接问,不给例子30-50%
One-shot给 1 个例子45-60%
Few-shot给 5-50 个例子60-80%
Fine-tuning用几千条专门数据训85-95%

Few-shot 是 90% 实用场景的 sweet spot——足够好,不需要训练。

一些反直觉发现

大模型反而”少学”训练数据

直觉:参数多,应该更容易”背诵”训练数据。 实际:参数到一定规模,模型反而更不会照搬训练数据——它学到了更抽象的”语言模式”。

这是 LLM 不像 K 近邻那样死记的根本原因。

简单 prompt 的效果差异巨大

同一个问题:

  • “What is 2+3?” → 给乱答案
  • “Q: What is 2+3? A:” → 给对答案

仅仅”格式”的差别让效果天差地别。Prompt Engineering 从这一发现开始。

训不到收敛也行

GPT-3 训完后还没”收敛”——继续训能更好。但成本太高,OpenAI 停了。

“训不到收敛” 在工业界是常态——计算和数据成本决定了 trade-off。

论文的局限性(GPT-3 不行的)

OpenAI 在论文里诚实列了 GPT-3 的弱点:

  • 算术超过 3 位数就翻车(GPT-4 改善了)
  • 常识推理弱(“如果鱼游过我家门口” 这种)
  • 长文档理解不行(上下文 2048)
  • 会编造事实(“幻觉”早期形态)
  • 训练数据偏见放大

几乎所有当代 LLM 改进都在攻击这些问题——RLHF、CoT、长上下文、RAG、对齐。

后续故事

GPT-3 发布后:

  • OpenAI 自己:在它基础上做 InstructGPT(2022 初)→ ChatGPT(2022 末)
  • 学术界:开始信”Scale Is All You Need”,转向大模型方向
  • 工业界:Anthropic、Google DeepMind、Meta 都开始训自己的大模型
  • 政策界:AI 安全讨论急剧升温

这一篇论文 = AI 行业 2020 → 2026 整个轨迹的起点。

一些细节

”OpenAI 这次没开源”

GPT-2 OpenAI 开了源(出于安全考虑延迟了几个月)。 GPT-3 完全闭源——只通过 API 提供。

这是 OpenAI 从”研究机构”变成”商业公司”的转折点——也是后续 Anthropic / Mistral 等想”开源大模型”的反作用力。

“GPT-3 用了多少电”

约 1.3 GWh —— 相当于 120 美国家庭一年的用电。 碳排放约 552 吨 CO₂

一个常被讨论的可持续性问题:训练大模型的环境成本。

推荐配套阅读

  • HelloAI: L0-02 AI 简史 + L4-01 LLM 训练
  • InstructGPT 论文(2022) → 怎么从 GPT-3 到 ChatGPT
  • Scaling Laws 系列论文(OpenAI 2020, DeepMind Chinchilla 2022)
💡 一个时间线

2017:Transformer 2018:GPT-1(117M) 2019:GPT-2(1.5B) 2020:GPT-3(175B)← 这篇 2022 末:ChatGPT 2026:Claude Opus 4.6, GPT-5

每代 LLM 的”步长”:约 10 倍参数 + 重大新能力。 这种节奏是 AI 史上从未有过的

📬

想要更多论文精读

订阅每周精选 —— 下一篇论文笔记直接送邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。