Language Models are Few-Shot Learners (GPT-3)
为什么这篇论文重要
2020 年这篇 75 页论文做了一件改变历史的事——
把 GPT-2 的 15 亿参数扩到 1750 亿,证明了一个惊人的现象:LLM 不微调就能学新任务。
只要在 prompt 里给几个例子(“few-shot”)—— 模型自己悟出来怎么做。
这是 LLM 从”工具”变成”通用助手”的起点。没有这篇论文,没有 ChatGPT。
三个革命性发现
发现 1:模型大到一定程度,能力会”涌现”
13 亿参数:只会续写文章。 175 亿参数:能做翻译、问答、算术、推理。 1750 亿参数:能编程、能创作、能推理多步。
这种”突然在某个规模上获得能力”的现象——叫 Emergent Abilities(涌现能力)。
这是 OpenAI 后续坚信”Scale Is All You Need”的源头。 也是后续 GPT-4 / GPT-5 一路堆参数的原因。
发现 2:In-Context Learning(情境学习)
不需要微调——只要在 prompt 里给几个例子:
英 → 中:
hello → 你好
goodbye → 再见
thank you → ???
GPT-3 能直接答”谢谢”—— 没改任何参数,只看了几个例子。
这是机器学习史上从未见过的范式。 之前所有模型都必须为每个任务训练。GPT-3 让 “prompt = 编程” 成为可能。
发现 3:Scaling Laws
论文里 OpenAI 公开了一些规律性发现——
模型损失(loss)随参数、数据、算力呈幂律下降。
这条曲线到 2023 年仍然成立——也是 Anthropic 等后续投入大模型的信心来源。
GPT-3 的训练规模
- 参数:175B
- 训练数据:约 570GB 文本(去重后)
- 训练算力:约 3.14 × 10²³ FLOPs
- 训练成本:估约 $460 万美元
- 训练时长:几个月
当年这个规模是全世界最大的训练。今天 GPT-4 据估算是这个的 5-10 倍。
实验结果
在各类 NLP 任务上
| 任务 | Few-shot 准确率 | SOTA(专门微调) |
|---|---|---|
| 翻译(En-Fr) | 32 BLEU | 35 |
| 阅读理解(SQuAD) | 71% | 91% |
| 算术(3 位数加法) | 80% | (没有专门 baseline) |
| 自然语言推理 | 70% | 91% |
比专门微调的 SOTA 略差——但完全不需要微调和领域数据。这是关键。
Few-shot vs Zero-shot vs Fine-tuning
| 设定 | 输入 | 准确率(典型) |
|---|---|---|
| Zero-shot | 直接问,不给例子 | 30-50% |
| One-shot | 给 1 个例子 | 45-60% |
| Few-shot | 给 5-50 个例子 | 60-80% |
| Fine-tuning | 用几千条专门数据训 | 85-95% |
Few-shot 是 90% 实用场景的 sweet spot——足够好,不需要训练。
一些反直觉发现
大模型反而”少学”训练数据
直觉:参数多,应该更容易”背诵”训练数据。 实际:参数到一定规模,模型反而更不会照搬训练数据——它学到了更抽象的”语言模式”。
这是 LLM 不像 K 近邻那样死记的根本原因。
简单 prompt 的效果差异巨大
同一个问题:
- “What is 2+3?” → 给乱答案
- “Q: What is 2+3? A:” → 给对答案
仅仅”格式”的差别让效果天差地别。Prompt Engineering 从这一发现开始。
训不到收敛也行
GPT-3 训完后还没”收敛”——继续训能更好。但成本太高,OpenAI 停了。
“训不到收敛” 在工业界是常态——计算和数据成本决定了 trade-off。
论文的局限性(GPT-3 不行的)
OpenAI 在论文里诚实列了 GPT-3 的弱点:
- 算术超过 3 位数就翻车(GPT-4 改善了)
- 常识推理弱(“如果鱼游过我家门口” 这种)
- 长文档理解不行(上下文 2048)
- 会编造事实(“幻觉”早期形态)
- 训练数据偏见放大
几乎所有当代 LLM 改进都在攻击这些问题——RLHF、CoT、长上下文、RAG、对齐。
后续故事
GPT-3 发布后:
- OpenAI 自己:在它基础上做 InstructGPT(2022 初)→ ChatGPT(2022 末)
- 学术界:开始信”Scale Is All You Need”,转向大模型方向
- 工业界:Anthropic、Google DeepMind、Meta 都开始训自己的大模型
- 政策界:AI 安全讨论急剧升温
这一篇论文 = AI 行业 2020 → 2026 整个轨迹的起点。
一些细节
”OpenAI 这次没开源”
GPT-2 OpenAI 开了源(出于安全考虑延迟了几个月)。 GPT-3 完全闭源——只通过 API 提供。
这是 OpenAI 从”研究机构”变成”商业公司”的转折点——也是后续 Anthropic / Mistral 等想”开源大模型”的反作用力。
“GPT-3 用了多少电”
约 1.3 GWh —— 相当于 120 美国家庭一年的用电。 碳排放约 552 吨 CO₂。
一个常被讨论的可持续性问题:训练大模型的环境成本。
推荐配套阅读
- HelloAI: L0-02 AI 简史 + L4-01 LLM 训练
- InstructGPT 论文(2022) → 怎么从 GPT-3 到 ChatGPT
- Scaling Laws 系列论文(OpenAI 2020, DeepMind Chinchilla 2022)
2017:Transformer 2018:GPT-1(117M) 2019:GPT-2(1.5B) 2020:GPT-3(175B)← 这篇 2022 末:ChatGPT 2026:Claude Opus 4.6, GPT-5
每代 LLM 的”步长”:约 10 倍参数 + 重大新能力。 这种节奏是 AI 史上从未有过的。
想要更多论文精读
订阅每周精选 —— 下一篇论文笔记直接送邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。