HelloAI
📄 论文精读 🏆 必读经典 ⭐ 本周精选 · 2025 · DeepSeek 2024-2025

DeepSeek-V3 / R1:开源推理模型的革命

DeepSeek-AI Team
TL;DR
DeepSeek 用 $5.6M 训出接近 GPT-4 的开源模型——震动了整个行业。证明"开源 + 高效工程 + 创新算法" 能挑战美国巨头。
#DeepSeek#开源#推理#前沿#必读

为什么这篇论文重要

2025 年 1 月—— DeepSeek-R1 发布的那一周—— 美股 AI 板块蒸发了 1 万亿美元

为什么?因为这家中国杭州的小创业公司—— 用 $5.6M 美元的训练成本—— 做出了一个接近 GPT-4 / o1 水平的开源模型

OpenAI 花 $100M 训 GPT-4—— DeepSeek 花 1/20 钱做到接近的事。 还开源 + 免费用

这不只是技术突破——是商业模式的颠覆

DeepSeek 的两个里程碑模型

DeepSeek-V3(2024 年 12 月)

通用大模型

  • 671B 总参数(MoE 架构)
  • 激活 37B
  • 14.8T token 训练
  • 训练成本约 $5.6M

在 benchmark 上接近 GPT-4o / Claude 3.5

任务DeepSeek-V3GPT-4oClaude 3.5
MMLU88.588.788.3
HumanEval89.090.292.0
MATH-50090.281.478.3
中文 C-Eval86.576.080.4

中文上明显超过 GPT-4o—— DeepSeek 的本土优势。

DeepSeek-R1(2025 年 1 月)

推理模型——对标 OpenAI o1:

任务DeepSeek-R1OpenAI o1
AIME 2024 (数学奥赛)79.8%83.3%
MATH-50097.3%96.4%
HumanEval90.1%92.4%
Codeforces96.3%96.6%

几乎全部接近 o1—— 但完全开源 + API 价格只有 o1 的 1/27

论文披露的关键技术

V3 的几个创新

1. Multi-head Latent Attention(MLA)

KV Cache 杀手—— 把 K, V 压缩到一个低维 latent space:

传统 KV: 每个 token 保留 完整 K, V
MLA: 把 KV 联合压缩到 latent vector,推理时再展开

显存节省: ~5×
质量损失: 几乎为零

这让长上下文(128k)成本大幅下降。

2. DeepSeekMoE 架构

不是传统 8 专家的 MoE—— 256 个专家 + 8 个共享专家。 每个 token 激活 8 个 + 8 个共享 = 实质用 16 个。

设计上:

  • 细粒度专家(每个小,但多)→ 更精准路由
  • 共享专家(每个 token 都用)→ 学到通用知识

3. FP8 训练

DeepSeek 是第一个大规模用 FP8 训练的开源模型

  • 比 FP16 快 2×
  • 比 FP16 省 2× 显存
  • 关键创新:自适应 scaling 防止精度损失

这一改进直接砍掉了一半训练成本

4. Multi-Token Prediction (MTP)

每步不只预测下一个 token—— 同时预测后面 2-4 个

传统: prompt → predict next 1 token
MTP: prompt → predict next 4 tokens(用辅助 head)

好处

  • 训练信号更密集
  • 推理时可直接用作 speculative decoding
  • 训练效率提升

5. 训练数据策略

14.8T tokens 的训练数据—— 质量 + 多样性精心策划:

  • 大量代码(推理能力来源)
  • 大量数学(CoT 训练)
  • 多语言(特别强化中文)
  • 严格去重 + 质控

R1 的”零样本”推理学习

DeepSeek-R1 最让人震惊的部分—— 完全用 RL(不用 SFT)学到推理

传统范式(OpenAI 等):

基础模型 → SFT(教推理样例) → RL → 推理模型

R1 的做法:

基础模型 → 纯 RL(用规则奖励) → 推理涌现 → "AHA moment"

Rule-based reward

不用人工偏好评分—— 用可验证的规则给奖励:

def reward(question, answer):
    # 数学题:答案是否正确?
    if math_problem(question):
        return 1 if correct_answer(answer, ground_truth) else 0
    # 代码:是否通过单元测试?
    if code_problem(question):
        return 1 if pass_tests(answer) else 0
    # 推理 CoT:格式是否对?
    if reasoning_quality(answer):
        return 1
    return 0

纯规则可验证的反馈——比 RLHF 简单 + 客观。

“Aha moment”

训练过程中模型涌现出反思行为:

模型一开始:直接答
↓ RL 训练
模型尝试推理:写一些 CoT
↓ 继续训练
模型涌现"反思":
  "Wait, let me reconsider..."
  "Actually, I made a mistake here..."
  "Let me try a different approach..."

研究者称之为 “aha moment”—— 模型自发学会”质疑 + 重新尝试”。

这是 AI 自学习的关键现象。

技术报告震撼之处

1. 极致的工程效率

DeepSeek 团队优化每一处细节

  • 自定义 GPU kernel
  • 通信 / 计算重叠
  • 内存复用
  • 数据 pipeline 优化

类似”美国 AI 公司用规模解决问题,中国团队用工程解决问题”—— 文化差异在算法层的体现。

2. 完全开源

V3 / R1 都完全开源—— 不只权重,连部分训练数据 + 训练代码都公开。

对比:

  • GPT-4:完全闭源
  • Claude:完全闭源
  • Llama 3:权重开源,数据/代码部分公开
  • DeepSeek:最开放

3. 价格屠杀

DeepSeek-V3 API

  • Input: $0.14 / M tokens
  • Output: $0.28 / M tokens

OpenAI GPT-4o

  • Input: $5 / M
  • Output: $15 / M

DeepSeek 价格是 GPT-4o 的 1/35-1/50

这直接逼着 OpenAI、Anthropic 调价—— 整个 LLM API 价格在 2025 年砍掉 70%+

对行业的冲击

1. “美国 AI 霸权” 的质疑

之前的叙事:

  • AI 是美国主导的
  • 中国会落后 5-10 年
  • 需要巨大投资才能追

DeepSeek 直接打脸:

  • 不需要巨大投资5.6Mvs5.6M vs 100M+)
  • 不需要美国 GPU(用 H800、有限制版)
  • 不需要美国数据(中文数据足够)

2025 年 1 月 27 日—— 英伟达股票一天跌 17%,市值蒸发 6000 亿美元。 投资者第一次怀疑”AI = 巨大 GPU 投资”的逻辑。

2. “出口管制可能反促进创新”

美国 2022 年起对中国 GPU 出口限制:

  • 不能买 A100 / H100
  • 只能买 H800(性能阉割版)

DeepSeek 在这种限制下做出 SOTA—— 说明限制反而逼出了创新

这是 hardware 限制催生 software / algorithm 突破的经典案例。

3. 开源生态获胜

DeepSeek 之后:

  • 任何公司能基于它做应用
  • 任何研究者能基于它做实验
  • 任何国家不用依赖美国 LLM

开源 vs 闭源的格局——彻底倒向开源

一些有趣的细节

DeepSeek 是谁

幻方量化(High-Flyer)—— 中国量化基金的 AI 子部门。

公司创始人梁文锋—— 量化交易员出身,2023 年成立 DeepSeek。

“做量化攒了 5 万张 A100,闲着也是闲着,训训模型呗”—— 梁文锋的早期访谈大意。

训练故事

V3 训练用了 2048 张 H800—— 约 2 个月。 团队人数:130 人(远少于 OpenAI / Anthropic 的 1000+)。

小团队 + 高效 = 突破

“DeepSeek 时刻”

2025 年 1 月 R1 发布—— 被称为 “DeepSeek Moment”—— 类似 1957 年苏联 Sputnik 卫星升空的”震撼时刻”。

美国整个 AI 行业重新评估自己的竞争优势

论文之后

后续工作

  • DeepSeek-V3.5(2025 中)
  • DeepSeek-R2(2025 末,传闻)
  • DeepSeek-Coder V3 —— 代码专用版

行业反应

  • Meta:加速 Llama 4 开发
  • OpenAI:发布 o3 反击
  • Anthropic:Claude 4 加速
  • 国内:阿里、字节、腾讯、月之暗面跟进

长期影响

2025 之后:

  • 开源模型不再落后
  • LLM 价格全面下降
  • AI 创业门槛降低
  • 垂直应用爆发

怎么用

API(最便宜)

from openai import OpenAI  # DeepSeek API 兼容 OpenAI 格式
client = OpenAI(api_key="your_key", base_url="https://api.deepseek.com")

response = client.chat.completions.create(
    model="deepseek-chat",  # 或 "deepseek-reasoner" 用 R1
    messages=[{"role": "user", "content": "Solve x^2 + 5x + 6 = 0"}]
)
print(response.choices[0].message.content)

本地部署

# 用 Ollama
ollama pull deepseek-v3:671b  # 完整版(需要 8+ H100)
ollama pull deepseek-r1:7b    # 蒸馏小版本(消费级 GPU 可跑)

蒸馏版本

DeepSeek 同时发布了蒸馏到小模型的版本:

  • DeepSeek-R1-Distill-Qwen-7B
  • DeepSeek-R1-Distill-Llama-70B

性能远超原版 Qwen / Llama—— 说明 R1 的”推理能力”能被蒸馏。

推荐配套阅读

  • HelloAI: L4-01 LLM 训练 + L6-02 RLHF/CAI + L7-04 量化
  • DeepSeek-V3 技术报告 —— 50+ 页极硬核
  • DeepSeek-R1 论文 —— 推理学习的细节
  • 梁文锋访谈(暗涌、晚点等媒体)
💡 一个时代的标志

2025 年 1 月—— AI 发展史上的转折点之一

  • 开源模型证明”不输闭源”
  • “小团队 + 高效”挑战”巨头 + 烧钱”
  • 中国 AI 在世界舞台占有重要位置

未来 5 年——开源 LLM 主导。 这意味着 AI 民主化—— 所有人都能用,所有人都能改

DeepSeek 不是终点——是开端。

📬

想要更多论文精读

订阅每周精选 —— 下一篇论文笔记直接送邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。