📄 论文精读 🏆 必读经典 · 2020 · EleutherAI 2021

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Leo Gao, Stella Biderman, Sid Black, Laurence Golding, et al.

arXiv:2101.00027 →

📖 如果你只读一段，读这段

EleutherAI 开源的 800GB 训练数据集——第一个真正可用的"GPT-3 级别"开源训练数据。开源 LLM 革命的"砖头"。

#The Pile#数据集#开源#基础

为什么这篇论文重要

2020 年 GPT-3 震撼世界—— 但没人能复现：

模型权重不开源
训练数据完全不公开

要训自己的 GPT-3 类模型——第一个问题就是数据从哪儿来。

2021 年 EleutherAI（一个开源研究集体）做了关键工作：

公开了一个 800GB、22 个数据源的训练数据集——The Pile。

这看似”只是个数据集”—— 但它让开源 LLM 革命成为可能：

GPT-Neo / GPT-J（早期开源 LLM）
RWKV、LLaMA 早期版本、StableLM
几乎所有 2021-2023 的开源 LLM 都用 Pile

Pile 是开源 AI 的”砖头”—— 没它，开源 LLM 就是空中楼阁。

Pile 的内容

800GB 文本——分 22 个数据源：

学术 / 论文

arXiv：物理、CS、数学论文（~96GB）
PubMed：医学论文摘要
NIH ExPorter：医学研究资助申请

书籍

Books3：图书数据集（~108GB） — 后来引发版权争议
Project Gutenberg：公共领域书籍
BookCorpus2：未出版图书

代码

GitHub：~95GB 代码 + README
StackExchange：技术问答

网页

Common Crawl 子集（~227GB）
OpenWebText2：高质量网页

对话

HackerNews：技术讨论
PhilPapers：哲学论文

法律 / 政府

FreeLaw：法律文档
USPTO Backgrounds：专利说明

多样性

DeepMind 数学题
Enron Emails：商业邮件
YoutubeSubtitles：YouTube 字幕
…

每个数据源都经过精心选择 + 清洗。

设计哲学

EleutherAI 的几个原则：

1. 多样性

避免单一来源—— 比纯互联网爬取的数据”知识更广”。

特别加入了：

学术内容（提升推理）
书籍（长依赖训练）
代码（推理 + 结构化）
法律（专业术语）

2. 高质量

不是”越多越好”—— 每个数据源都质控：

去除明显垃圾
多层去重
限制重复内容

3. 完全开源

所有数据 + 处理代码 + 元数据都公开—— 任何人能复制 / 改进。

这种开放度—— 与 OpenAI 的”完全闭源”形成鲜明对比。

为什么这么有价值

1. 训自己的 LLM

之前—— “训 LLM” 需要：

几亿美元
OpenAI 内部数据
顶尖研究团队

Pile 之后—— 任何团队都能：

下载数据（免费）
训 100M-7B 模型（几张 GPU）
复现 GPT 类模型（小规模）

2. 学术研究

研究问题如：

“训练数据的 X 特征对模型有什么影响？”
“不同领域数据的相对价值？”
“如何检测数据污染？”

全都基于 Pile 做实验。

3. 评估和审计

模型用了 Pile 训—— 研究者能查模型在 Pile 上的”训练污染”：

如果模型见过 benchmark 的答案——它的分数高没意义
Pile 是公开的——容易审计

历史影响

第一波开源 LLM（2021-2022）

基于 Pile 训的早期开源模型：

GPT-Neo 1.3B / 2.7B
GPT-J 6B
GPT-NeoX 20B
Pythia 系列（专门为研究而开源的多尺寸）

这些是开源 LLM 的”祖先”—— LLaMA / Mistral / Qwen 等都受其启发。

LLaMA 时代（2023+）

LLaMA 训练数据不是纯 Pile—— 但继承了 Pile 的设计哲学：

多样化来源
学术内容
代码混合
严格去重

LLaMA 论文里多次引用 Pile 的设计。

现代趋势

2024-2026 的 LLM 训练数据比 Pile 大 100×—— 但Pile 的设计原则仍被遵循：

多源
质控
多样化
透明（部分）

Pile 之后的”训练数据生态”

更大、更多样

数据集	大小	特点
The Pile（2021）	800GB	开源先驱
C4（Google）	800GB	纯网页过滤
RedPajama（2023）	1.2TB	复现 LLaMA 训练数据
SlimPajama	627GB	RedPajama 去重版
Dolma（AI2 2023）	3TB	完全开源 + 工具链
FineWeb（HF 2024）	15TB	精心过滤的网页
FineWeb-Edu	1.3T tokens	教育内容专版
DCLM（2024）	4T tokens	DataComp 框架

数据集大小 1000× 增长—— 但复杂度 + 严格度也提升。

数据策略的重要性

后来发现—— 数据质量比模型大小更重要：

Chinchilla（DeepMind 2022）：参数 vs 数据的最优比
Phi 系列：textbook-quality 数据
DeepSeek：极致数据策略

Pile 是”现代 LLM 数据策略”的起点。

一些争议

版权问题

Books3 子集（Pile 的一部分）—— 包含了未授权的图书。

2023 年作家集体诉讼——

起诉 Meta（LLaMA 用了 Pile）
起诉其它用 Pile 的公司

一些数据集后来被 takedown 或重整。

这暴露了 LLM 训练数据的版权困境—— 至今未完全解决。

数据污染

Pile 完全公开—— 所有 benchmark 题目可能在 Pile 里：

HumanEval 的部分代码
MMLU 的部分知识题
等等

模型在这些 benchmark 上的高分—— 部分来自”记忆训练数据”，不是真懂。

多样性偏见

Pile 主要英文 + 西方学术——

中文、阿拉伯语、印地语等比例小
学术偏向西方
互联网偏向英语圈

训出来的 LLM 天然偏向英语 / 西方。这是后续多语言 LLM 要解决的问题。

EleutherAI 是谁

值得知道的”幕后人物”——

EleutherAI 是 2020 年成立的开源 AI 集体—— 最初是 Discord 上的几个 GPT-3 爱好者。

后来：

发布 Pile
训了 GPT-Neo / GPT-J / GPT-NeoX
做 Pythia 系列（研究友好）
持续开源数据 + 模型 + 工具

几乎所有”开源 LLM 工程师” 都受 EleutherAI 影响。

Stella Biderman 等创始人成为了开源 AI 的代表人物。

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。