HelloAI
📄 论文精读 🏆 必读经典 · 2020 · EleutherAI 2021

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Leo Gao, Stella Biderman, Sid Black, Laurence Golding, et al.
TL;DR
EleutherAI 开源的 800GB 训练数据集——第一个真正可用的"GPT-3 级别"开源训练数据。开源 LLM 革命的"砖头"。
#The Pile#数据集#开源#基础

为什么这篇论文重要

2020 年 GPT-3 震撼世界—— 但没人能复现

  • 模型权重不开源
  • 训练数据完全不公开

要训自己的 GPT-3 类模型——第一个问题就是数据从哪儿来

2021 年 EleutherAI(一个开源研究集体)做了关键工作:

公开了一个 800GB、22 个数据源的训练数据集——The Pile

这看似”只是个数据集”—— 但它让开源 LLM 革命成为可能

  • GPT-Neo / GPT-J(早期开源 LLM)
  • RWKV、LLaMA 早期版本、StableLM
  • 几乎所有 2021-2023 的开源 LLM 都用 Pile

Pile 是开源 AI 的”砖头”—— 没它,开源 LLM 就是空中楼阁。

Pile 的内容

800GB 文本——分 22 个数据源

学术 / 论文

  • arXiv:物理、CS、数学论文(~96GB)
  • PubMed:医学论文摘要
  • NIH ExPorter:医学研究资助申请

书籍

  • Books3:图书数据集(~108GB) — 后来引发版权争议
  • Project Gutenberg:公共领域书籍
  • BookCorpus2:未出版图书

代码

  • GitHub:~95GB 代码 + README
  • StackExchange:技术问答

网页

  • Common Crawl 子集(~227GB)
  • OpenWebText2:高质量网页

对话

  • HackerNews:技术讨论
  • PhilPapers:哲学论文

法律 / 政府

  • FreeLaw:法律文档
  • USPTO Backgrounds:专利说明

多样性

  • DeepMind 数学题
  • Enron Emails:商业邮件
  • YoutubeSubtitles:YouTube 字幕

每个数据源都经过精心选择 + 清洗

设计哲学

EleutherAI 的几个原则:

1. 多样性

避免单一来源—— 比纯互联网爬取的数据”知识更广”

特别加入了:

  • 学术内容(提升推理)
  • 书籍(长依赖训练)
  • 代码(推理 + 结构化)
  • 法律(专业术语)

2. 高质量

不是”越多越好”—— 每个数据源都质控

  • 去除明显垃圾
  • 多层去重
  • 限制重复内容

3. 完全开源

所有数据 + 处理代码 + 元数据都公开—— 任何人能复制 / 改进。

这种开放度—— 与 OpenAI 的”完全闭源”形成鲜明对比。

为什么这么有价值

1. 训自己的 LLM

之前—— “训 LLM” 需要:

  • 几亿美元
  • OpenAI 内部数据
  • 顶尖研究团队

Pile 之后—— 任何团队都能:

  • 下载数据(免费)
  • 训 100M-7B 模型(几张 GPU)
  • 复现 GPT 类模型(小规模)

2. 学术研究

研究问题如:

  • “训练数据的 X 特征对模型有什么影响?”
  • “不同领域数据的相对价值?”
  • “如何检测数据污染?”

全都基于 Pile 做实验

3. 评估和审计

模型用了 Pile 训—— 研究者能查模型在 Pile 上的”训练污染”

  • 如果模型见过 benchmark 的答案——它的分数高没意义
  • Pile 是公开的——容易审计

历史影响

第一波开源 LLM(2021-2022)

基于 Pile 训的早期开源模型:

  • GPT-Neo 1.3B / 2.7B
  • GPT-J 6B
  • GPT-NeoX 20B
  • Pythia 系列(专门为研究而开源的多尺寸)

这些是开源 LLM 的”祖先”—— LLaMA / Mistral / Qwen 等都受其启发。

LLaMA 时代(2023+)

LLaMA 训练数据不是纯 Pile—— 但继承了 Pile 的设计哲学

  • 多样化来源
  • 学术内容
  • 代码混合
  • 严格去重

LLaMA 论文里多次引用 Pile 的设计。

现代趋势

2024-2026 的 LLM 训练数据比 Pile 大 100×—— 但Pile 的设计原则仍被遵循

  • 多源
  • 质控
  • 多样化
  • 透明(部分)

Pile 之后的”训练数据生态”

更大、更多样

数据集大小特点
The Pile(2021)800GB开源先驱
C4(Google)800GB纯网页过滤
RedPajama(2023)1.2TB复现 LLaMA 训练数据
SlimPajama627GBRedPajama 去重版
Dolma(AI2 2023)3TB完全开源 + 工具链
FineWeb(HF 2024)15TB精心过滤的网页
FineWeb-Edu1.3T tokens教育内容专版
DCLM(2024)4T tokensDataComp 框架

数据集大小 1000× 增长—— 但复杂度 + 严格度也提升

数据策略的重要性

后来发现—— 数据质量比模型大小更重要

  • Chinchilla(DeepMind 2022):参数 vs 数据的最优比
  • Phi 系列:textbook-quality 数据
  • DeepSeek:极致数据策略

Pile 是”现代 LLM 数据策略”的起点。

一些争议

版权问题

Books3 子集(Pile 的一部分)—— 包含了未授权的图书

2023 年作家集体诉讼——

  • 起诉 Meta(LLaMA 用了 Pile)
  • 起诉其它用 Pile 的公司

一些数据集后来被 takedown 或重整。

这暴露了 LLM 训练数据的版权困境—— 至今未完全解决

数据污染

Pile 完全公开—— 所有 benchmark 题目可能在 Pile 里

  • HumanEval 的部分代码
  • MMLU 的部分知识题
  • 等等

模型在这些 benchmark 上的高分—— 部分来自”记忆训练数据”,不是真懂。

多样性偏见

Pile 主要英文 + 西方学术——

  • 中文、阿拉伯语、印地语等比例小
  • 学术偏向西方
  • 互联网偏向英语圈

训出来的 LLM 天然偏向英语 / 西方。 这是后续多语言 LLM 要解决的问题。

EleutherAI 是谁

值得知道的”幕后人物”——

EleutherAI 是 2020 年成立的开源 AI 集体—— 最初是 Discord 上的几个 GPT-3 爱好者。

后来:

  • 发布 Pile
  • 训了 GPT-Neo / GPT-J / GPT-NeoX
  • 做 Pythia 系列(研究友好)
  • 持续开源数据 + 模型 + 工具

几乎所有”开源 LLM 工程师” 都受 EleutherAI 影响。

Stella Biderman 等创始人成为了开源 AI 的代表人物

推荐配套阅读

  • HelloAI: L4-01 LLM 训练 + L0-10 AI 数据安全
  • The Pile 论文 原版
  • Datasheets for Datasets(Gebru 2018)—— 数据集文档标准
  • RedPajama 报告 —— LLaMA 数据复现
  • FineWeb 报告(HuggingFace 2024)—— 最新方法
💡 一个反思

Pile 时代是理想化的”数据民主”

  • 任何人能下
  • 任何人能用
  • 任何人能改

之后版权 / 商业压力让数据集逐渐变私—— 现代大模型的训练数据 越来越不透明

这是 AI 民主化 vs 商业化的张力—— 没有简单答案。

Pile 证明了开源数据的价值—— 它的精神延续在 RedPajama / Dolma 等新一代数据集中。

📬

想要更多论文精读

订阅每周精选 —— 下一篇论文笔记直接送邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。