📄 论文精读 🏆 必读经典 · 2020 · NeurIPS 2020

Language Models are Few-Shot Learners (GPT-3)

Tom B. Brown, Benjamin Mann, Nick Ryder, et al.

arXiv:2005.14165 →

📖 如果你只读一段，读这段

175B 参数的 GPT-3 展示了"in-context learning"——不微调，只给几个例子就能学会新任务。这篇论文重新定义了人们对 LLM 的预期。

#GPT-3#LLM#Few-shot#必读

为什么这篇论文重要

2020 年这篇 75 页论文做了一件改变历史的事——

把 GPT-2 的 15 亿参数扩到 1750 亿，证明了一个惊人的现象：LLM 不微调就能学新任务。

只要在 prompt 里给几个例子（“few-shot”）—— 模型自己悟出来怎么做。

这是 LLM 从”工具”变成”通用助手”的起点。没有这篇论文，没有 ChatGPT。

三个革命性发现

发现 1：模型大到一定程度，能力会”涌现”

13 亿参数：只会续写文章。 175 亿参数：能做翻译、问答、算术、推理。 1750 亿参数：能编程、能创作、能推理多步。

这种”突然在某个规模上获得能力”的现象——叫 Emergent Abilities（涌现能力）。

这是 OpenAI 后续坚信”Scale Is All You Need”的源头。也是后续 GPT-4 / GPT-5 一路堆参数的原因。

发现 2：In-Context Learning（情境学习）

不需要微调——只要在 prompt 里给几个例子：

英 → 中：
hello → 你好
goodbye → 再见
thank you → ???

GPT-3 能直接答”谢谢”—— 没改任何参数，只看了几个例子。

这是机器学习史上从未见过的范式。之前所有模型都必须为每个任务训练。GPT-3 让 “prompt = 编程” 成为可能。

发现 3：Scaling Laws

论文里 OpenAI 公开了一些规律性发现——

模型损失（loss）随参数、数据、算力呈幂律下降。

这条曲线到 2023 年仍然成立——也是 Anthropic 等后续投入大模型的信心来源。

GPT-3 的训练规模

参数：175B
训练数据：约 570GB 文本（去重后）
训练算力：约 3.14 × 10²³ FLOPs
训练成本：估约 $460 万美元
训练时长：几个月

当年这个规模是全世界最大的训练。今天 GPT-4 据估算是这个的 5-10 倍。

实验结果

在各类 NLP 任务上

任务	Few-shot 准确率	SOTA（专门微调）
翻译（En-Fr）	32 BLEU	35
阅读理解（SQuAD）	71%	91%
算术（3 位数加法）	80%	(没有专门 baseline)
自然语言推理	70%	91%

比专门微调的 SOTA 略差——但完全不需要微调和领域数据。这是关键。

Few-shot vs Zero-shot vs Fine-tuning

设定	输入	准确率（典型）
Zero-shot	直接问，不给例子	30-50%
One-shot	给 1 个例子	45-60%
Few-shot	给 5-50 个例子	60-80%
Fine-tuning	用几千条专门数据训	85-95%

Few-shot 是 90% 实用场景的 sweet spot——足够好，不需要训练。

一些反直觉发现

大模型反而”少学”训练数据

直觉：参数多，应该更容易”背诵”训练数据。实际：参数到一定规模，模型反而更不会照搬训练数据——它学到了更抽象的”语言模式”。

这是 LLM 不像 K 近邻那样死记的根本原因。

简单 prompt 的效果差异巨大

同一个问题：

“What is 2+3?” → 给乱答案
“Q: What is 2+3? A:” → 给对答案

仅仅”格式”的差别让效果天差地别。Prompt Engineering 从这一发现开始。

训不到收敛也行

GPT-3 训完后还没”收敛”——继续训能更好。但成本太高，OpenAI 停了。

“训不到收敛” 在工业界是常态——计算和数据成本决定了 trade-off。

论文的局限性（GPT-3 不行的）

OpenAI 在论文里诚实列了 GPT-3 的弱点：

算术超过 3 位数就翻车（GPT-4 改善了）
常识推理弱（“如果鱼游过我家门口” 这种）
长文档理解不行（上下文 2048）
会编造事实（“幻觉”早期形态）
训练数据偏见放大

几乎所有当代 LLM 改进都在攻击这些问题——RLHF、CoT、长上下文、RAG、对齐。

后续故事

GPT-3 发布后：

OpenAI 自己：在它基础上做 InstructGPT（2022 初）→ ChatGPT（2022 末）
学术界：开始信”Scale Is All You Need”，转向大模型方向
工业界：Anthropic、Google DeepMind、Meta 都开始训自己的大模型
政策界：AI 安全讨论急剧升温

这一篇论文 = AI 行业 2020 → 2026 整个轨迹的起点。

一些细节

”OpenAI 这次没开源”

GPT-2 OpenAI 开了源（出于安全考虑延迟了几个月）。 GPT-3 完全闭源——只通过 API 提供。

这是 OpenAI 从”研究机构”变成”商业公司”的转折点——也是后续 Anthropic / Mistral 等想”开源大模型”的反作用力。

“GPT-3 用了多少电”

约 1.3 GWh —— 相当于 120 美国家庭一年的用电。 碳排放约 552 吨 CO₂。

一个常被讨论的可持续性问题：训练大模型的环境成本。

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。