DeepSeek-V3 / R1:开源推理模型的革命
为什么这篇论文重要
2025 年 1 月—— DeepSeek-R1 发布的那一周—— 美股 AI 板块蒸发了 1 万亿美元。
为什么?因为这家中国杭州的小创业公司—— 用 $5.6M 美元的训练成本—— 做出了一个接近 GPT-4 / o1 水平的开源模型。
OpenAI 花 $100M 训 GPT-4—— DeepSeek 花 1/20 钱做到接近的事。 还开源 + 免费用。
这不只是技术突破——是商业模式的颠覆。
DeepSeek 的两个里程碑模型
DeepSeek-V3(2024 年 12 月)
通用大模型:
- 671B 总参数(MoE 架构)
- 激活 37B
- 14.8T token 训练
- 训练成本约 $5.6M
在 benchmark 上接近 GPT-4o / Claude 3.5:
| 任务 | DeepSeek-V3 | GPT-4o | Claude 3.5 |
|---|---|---|---|
| MMLU | 88.5 | 88.7 | 88.3 |
| HumanEval | 89.0 | 90.2 | 92.0 |
| MATH-500 | 90.2 | 81.4 | 78.3 |
| 中文 C-Eval | 86.5 | 76.0 | 80.4 |
中文上明显超过 GPT-4o—— DeepSeek 的本土优势。
DeepSeek-R1(2025 年 1 月)
推理模型——对标 OpenAI o1:
| 任务 | DeepSeek-R1 | OpenAI o1 |
|---|---|---|
| AIME 2024 (数学奥赛) | 79.8% | 83.3% |
| MATH-500 | 97.3% | 96.4% |
| HumanEval | 90.1% | 92.4% |
| Codeforces | 96.3% | 96.6% |
几乎全部接近 o1—— 但完全开源 + API 价格只有 o1 的 1/27。
论文披露的关键技术
V3 的几个创新
1. Multi-head Latent Attention(MLA)
KV Cache 杀手—— 把 K, V 压缩到一个低维 latent space:
传统 KV: 每个 token 保留 完整 K, V
MLA: 把 KV 联合压缩到 latent vector,推理时再展开
显存节省: ~5×
质量损失: 几乎为零
这让长上下文(128k)成本大幅下降。
2. DeepSeekMoE 架构
不是传统 8 专家的 MoE—— 256 个专家 + 8 个共享专家。 每个 token 激活 8 个 + 8 个共享 = 实质用 16 个。
设计上:
- 细粒度专家(每个小,但多)→ 更精准路由
- 共享专家(每个 token 都用)→ 学到通用知识
3. FP8 训练
DeepSeek 是第一个大规模用 FP8 训练的开源模型:
- 比 FP16 快 2×
- 比 FP16 省 2× 显存
- 关键创新:自适应 scaling 防止精度损失
这一改进直接砍掉了一半训练成本。
4. Multi-Token Prediction (MTP)
每步不只预测下一个 token—— 同时预测后面 2-4 个。
传统: prompt → predict next 1 token
MTP: prompt → predict next 4 tokens(用辅助 head)
好处:
- 训练信号更密集
- 推理时可直接用作 speculative decoding
- 训练效率提升
5. 训练数据策略
14.8T tokens 的训练数据—— 质量 + 多样性精心策划:
- 大量代码(推理能力来源)
- 大量数学(CoT 训练)
- 多语言(特别强化中文)
- 严格去重 + 质控
R1 的”零样本”推理学习
DeepSeek-R1 最让人震惊的部分—— 完全用 RL(不用 SFT)学到推理。
传统范式(OpenAI 等):
基础模型 → SFT(教推理样例) → RL → 推理模型
R1 的做法:
基础模型 → 纯 RL(用规则奖励) → 推理涌现 → "AHA moment"
Rule-based reward
不用人工偏好评分—— 用可验证的规则给奖励:
def reward(question, answer):
# 数学题:答案是否正确?
if math_problem(question):
return 1 if correct_answer(answer, ground_truth) else 0
# 代码:是否通过单元测试?
if code_problem(question):
return 1 if pass_tests(answer) else 0
# 推理 CoT:格式是否对?
if reasoning_quality(answer):
return 1
return 0
纯规则可验证的反馈——比 RLHF 简单 + 客观。
“Aha moment”
训练过程中模型涌现出反思行为:
模型一开始:直接答
↓ RL 训练
模型尝试推理:写一些 CoT
↓ 继续训练
模型涌现"反思":
"Wait, let me reconsider..."
"Actually, I made a mistake here..."
"Let me try a different approach..."
研究者称之为 “aha moment”—— 模型自发学会”质疑 + 重新尝试”。
这是 AI 自学习的关键现象。
技术报告震撼之处
1. 极致的工程效率
DeepSeek 团队优化每一处细节:
- 自定义 GPU kernel
- 通信 / 计算重叠
- 内存复用
- 数据 pipeline 优化
类似”美国 AI 公司用规模解决问题,中国团队用工程解决问题”—— 文化差异在算法层的体现。
2. 完全开源
V3 / R1 都完全开源—— 不只权重,连部分训练数据 + 训练代码都公开。
对比:
- GPT-4:完全闭源
- Claude:完全闭源
- Llama 3:权重开源,数据/代码部分公开
- DeepSeek:最开放
3. 价格屠杀
DeepSeek-V3 API:
- Input: $0.14 / M tokens
- Output: $0.28 / M tokens
OpenAI GPT-4o:
- Input: $5 / M
- Output: $15 / M
DeepSeek 价格是 GPT-4o 的 1/35-1/50。
这直接逼着 OpenAI、Anthropic 调价—— 整个 LLM API 价格在 2025 年砍掉 70%+。
对行业的冲击
1. “美国 AI 霸权” 的质疑
之前的叙事:
- AI 是美国主导的
- 中国会落后 5-10 年
- 需要巨大投资才能追
DeepSeek 直接打脸:
- 不需要巨大投资(100M+)
- 不需要美国 GPU(用 H800、有限制版)
- 不需要美国数据(中文数据足够)
2025 年 1 月 27 日—— 英伟达股票一天跌 17%,市值蒸发 6000 亿美元。 投资者第一次怀疑”AI = 巨大 GPU 投资”的逻辑。
2. “出口管制可能反促进创新”
美国 2022 年起对中国 GPU 出口限制:
- 不能买 A100 / H100
- 只能买 H800(性能阉割版)
DeepSeek 在这种限制下做出 SOTA—— 说明限制反而逼出了创新。
这是 hardware 限制催生 software / algorithm 突破的经典案例。
3. 开源生态获胜
DeepSeek 之后:
- 任何公司能基于它做应用
- 任何研究者能基于它做实验
- 任何国家不用依赖美国 LLM
开源 vs 闭源的格局——彻底倒向开源。
一些有趣的细节
DeepSeek 是谁
幻方量化(High-Flyer)—— 中国量化基金的 AI 子部门。
公司创始人梁文锋—— 量化交易员出身,2023 年成立 DeepSeek。
“做量化攒了 5 万张 A100,闲着也是闲着,训训模型呗”—— 梁文锋的早期访谈大意。
训练故事
V3 训练用了 2048 张 H800—— 约 2 个月。 团队人数:130 人(远少于 OpenAI / Anthropic 的 1000+)。
小团队 + 高效 = 突破。
“DeepSeek 时刻”
2025 年 1 月 R1 发布—— 被称为 “DeepSeek Moment”—— 类似 1957 年苏联 Sputnik 卫星升空的”震撼时刻”。
美国整个 AI 行业重新评估自己的竞争优势。
论文之后
后续工作
- DeepSeek-V3.5(2025 中)
- DeepSeek-R2(2025 末,传闻)
- DeepSeek-Coder V3 —— 代码专用版
行业反应
- Meta:加速 Llama 4 开发
- OpenAI:发布 o3 反击
- Anthropic:Claude 4 加速
- 国内:阿里、字节、腾讯、月之暗面跟进
长期影响
2025 之后:
- 开源模型不再落后
- LLM 价格全面下降
- AI 创业门槛降低
- 垂直应用爆发
怎么用
API(最便宜)
from openai import OpenAI # DeepSeek API 兼容 OpenAI 格式
client = OpenAI(api_key="your_key", base_url="https://api.deepseek.com")
response = client.chat.completions.create(
model="deepseek-chat", # 或 "deepseek-reasoner" 用 R1
messages=[{"role": "user", "content": "Solve x^2 + 5x + 6 = 0"}]
)
print(response.choices[0].message.content)
本地部署
# 用 Ollama
ollama pull deepseek-v3:671b # 完整版(需要 8+ H100)
ollama pull deepseek-r1:7b # 蒸馏小版本(消费级 GPU 可跑)
蒸馏版本
DeepSeek 同时发布了蒸馏到小模型的版本:
- DeepSeek-R1-Distill-Qwen-7B
- DeepSeek-R1-Distill-Llama-70B
性能远超原版 Qwen / Llama—— 说明 R1 的”推理能力”能被蒸馏。
推荐配套阅读
- HelloAI: L4-01 LLM 训练 + L6-02 RLHF/CAI + L7-04 量化
- DeepSeek-V3 技术报告 —— 50+ 页极硬核
- DeepSeek-R1 论文 —— 推理学习的细节
- 梁文锋访谈(暗涌、晚点等媒体)
2025 年 1 月—— AI 发展史上的转折点之一:
- 开源模型证明”不输闭源”
- “小团队 + 高效”挑战”巨头 + 烧钱”
- 中国 AI 在世界舞台占有重要位置
未来 5 年——开源 LLM 主导。 这意味着 AI 民主化—— 所有人都能用,所有人都能改。
DeepSeek 不是终点——是开端。
想要更多论文精读
订阅每周精选 —— 下一篇论文笔记直接送邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。