The Pile: An 800GB Dataset of Diverse Text for Language Modeling
为什么这篇论文重要
2020 年 GPT-3 震撼世界—— 但没人能复现:
- 模型权重不开源
- 训练数据完全不公开
要训自己的 GPT-3 类模型——第一个问题就是数据从哪儿来。
2021 年 EleutherAI(一个开源研究集体)做了关键工作:
公开了一个 800GB、22 个数据源的训练数据集——The Pile。
这看似”只是个数据集”—— 但它让开源 LLM 革命成为可能:
- GPT-Neo / GPT-J(早期开源 LLM)
- RWKV、LLaMA 早期版本、StableLM
- 几乎所有 2021-2023 的开源 LLM 都用 Pile
Pile 是开源 AI 的”砖头”—— 没它,开源 LLM 就是空中楼阁。
Pile 的内容
800GB 文本——分 22 个数据源:
学术 / 论文
- arXiv:物理、CS、数学论文(~96GB)
- PubMed:医学论文摘要
- NIH ExPorter:医学研究资助申请
书籍
- Books3:图书数据集(~108GB) — 后来引发版权争议
- Project Gutenberg:公共领域书籍
- BookCorpus2:未出版图书
代码
- GitHub:~95GB 代码 + README
- StackExchange:技术问答
网页
- Common Crawl 子集(~227GB)
- OpenWebText2:高质量网页
对话
- HackerNews:技术讨论
- PhilPapers:哲学论文
法律 / 政府
- FreeLaw:法律文档
- USPTO Backgrounds:专利说明
多样性
- DeepMind 数学题
- Enron Emails:商业邮件
- YoutubeSubtitles:YouTube 字幕
- …
每个数据源都经过精心选择 + 清洗。
设计哲学
EleutherAI 的几个原则:
1. 多样性
避免单一来源—— 比纯互联网爬取的数据”知识更广”。
特别加入了:
- 学术内容(提升推理)
- 书籍(长依赖训练)
- 代码(推理 + 结构化)
- 法律(专业术语)
2. 高质量
不是”越多越好”—— 每个数据源都质控:
- 去除明显垃圾
- 多层去重
- 限制重复内容
3. 完全开源
所有数据 + 处理代码 + 元数据都公开—— 任何人能复制 / 改进。
这种开放度—— 与 OpenAI 的”完全闭源”形成鲜明对比。
为什么这么有价值
1. 训自己的 LLM
之前—— “训 LLM” 需要:
- 几亿美元
- OpenAI 内部数据
- 顶尖研究团队
Pile 之后—— 任何团队都能:
- 下载数据(免费)
- 训 100M-7B 模型(几张 GPU)
- 复现 GPT 类模型(小规模)
2. 学术研究
研究问题如:
- “训练数据的 X 特征对模型有什么影响?”
- “不同领域数据的相对价值?”
- “如何检测数据污染?”
全都基于 Pile 做实验。
3. 评估和审计
模型用了 Pile 训—— 研究者能查模型在 Pile 上的”训练污染”:
- 如果模型见过 benchmark 的答案——它的分数高没意义
- Pile 是公开的——容易审计
历史影响
第一波开源 LLM(2021-2022)
基于 Pile 训的早期开源模型:
- GPT-Neo 1.3B / 2.7B
- GPT-J 6B
- GPT-NeoX 20B
- Pythia 系列(专门为研究而开源的多尺寸)
这些是开源 LLM 的”祖先”—— LLaMA / Mistral / Qwen 等都受其启发。
LLaMA 时代(2023+)
LLaMA 训练数据不是纯 Pile—— 但继承了 Pile 的设计哲学:
- 多样化来源
- 学术内容
- 代码混合
- 严格去重
LLaMA 论文里多次引用 Pile 的设计。
现代趋势
2024-2026 的 LLM 训练数据比 Pile 大 100×—— 但Pile 的设计原则仍被遵循:
- 多源
- 质控
- 多样化
- 透明(部分)
Pile 之后的”训练数据生态”
更大、更多样
| 数据集 | 大小 | 特点 |
|---|---|---|
| The Pile(2021) | 800GB | 开源先驱 |
| C4(Google) | 800GB | 纯网页过滤 |
| RedPajama(2023) | 1.2TB | 复现 LLaMA 训练数据 |
| SlimPajama | 627GB | RedPajama 去重版 |
| Dolma(AI2 2023) | 3TB | 完全开源 + 工具链 |
| FineWeb(HF 2024) | 15TB | 精心过滤的网页 |
| FineWeb-Edu | 1.3T tokens | 教育内容专版 |
| DCLM(2024) | 4T tokens | DataComp 框架 |
数据集大小 1000× 增长—— 但复杂度 + 严格度也提升。
数据策略的重要性
后来发现—— 数据质量比模型大小更重要:
- Chinchilla(DeepMind 2022):参数 vs 数据的最优比
- Phi 系列:textbook-quality 数据
- DeepSeek:极致数据策略
Pile 是”现代 LLM 数据策略”的起点。
一些争议
版权问题
Books3 子集(Pile 的一部分)—— 包含了未授权的图书。
2023 年作家集体诉讼——
- 起诉 Meta(LLaMA 用了 Pile)
- 起诉其它用 Pile 的公司
一些数据集后来被 takedown 或重整。
这暴露了 LLM 训练数据的版权困境—— 至今未完全解决。
数据污染
Pile 完全公开—— 所有 benchmark 题目可能在 Pile 里:
- HumanEval 的部分代码
- MMLU 的部分知识题
- 等等
模型在这些 benchmark 上的高分—— 部分来自”记忆训练数据”,不是真懂。
多样性偏见
Pile 主要英文 + 西方学术——
- 中文、阿拉伯语、印地语等比例小
- 学术偏向西方
- 互联网偏向英语圈
训出来的 LLM 天然偏向英语 / 西方。 这是后续多语言 LLM 要解决的问题。
EleutherAI 是谁
值得知道的”幕后人物”——
EleutherAI 是 2020 年成立的开源 AI 集体—— 最初是 Discord 上的几个 GPT-3 爱好者。
后来:
- 发布 Pile
- 训了 GPT-Neo / GPT-J / GPT-NeoX
- 做 Pythia 系列(研究友好)
- 持续开源数据 + 模型 + 工具
几乎所有”开源 LLM 工程师” 都受 EleutherAI 影响。
Stella Biderman 等创始人成为了开源 AI 的代表人物。
推荐配套阅读
- HelloAI: L4-01 LLM 训练 + L0-10 AI 数据安全
- The Pile 论文 原版
- Datasheets for Datasets(Gebru 2018)—— 数据集文档标准
- RedPajama 报告 —— LLaMA 数据复现
- FineWeb 报告(HuggingFace 2024)—— 最新方法
Pile 时代是理想化的”数据民主”:
- 任何人能下
- 任何人能用
- 任何人能改
之后版权 / 商业压力让数据集逐渐变私—— 现代大模型的训练数据 越来越不透明。
这是 AI 民主化 vs 商业化的张力—— 没有简单答案。
但Pile 证明了开源数据的价值—— 它的精神延续在 RedPajama / Dolma 等新一代数据集中。
想要更多论文精读
订阅每周精选 —— 下一篇论文笔记直接送邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。