📄 论文精读 🏆 必读经典 ⭐ 本周精选 · 2025 · DeepSeek 2024-2025

DeepSeek-V3 / R1：开源推理模型的革命

DeepSeek-AI Team

arXiv:2501.12948 →

📖 如果你只读一段，读这段

DeepSeek 用 $5.6M 训出接近 GPT-4 的开源模型——震动了整个行业。证明"开源 + 高效工程 + 创新算法" 能挑战美国巨头。

#DeepSeek#开源#推理#前沿#必读

为什么这篇论文重要

2025 年 1 月—— DeepSeek-R1 发布的那一周—— 美股 AI 板块蒸发了 1 万亿美元。

为什么？因为这家中国杭州的小创业公司—— 用 $5.6M 美元的训练成本—— 做出了一个接近 GPT-4 / o1 水平的开源模型。

OpenAI 花 $100M 训 GPT-4—— DeepSeek 花 1/20 钱做到接近的事。还开源 + 免费用。

这不只是技术突破——是商业模式的颠覆。

DeepSeek 的两个里程碑模型

DeepSeek-V3（2024 年 12 月）

通用大模型：

671B 总参数（MoE 架构）
激活 37B
14.8T token 训练
训练成本约 $5.6M

在 benchmark 上接近 GPT-4o / Claude 3.5：

任务	DeepSeek-V3	GPT-4o	Claude 3.5
MMLU	88.5	88.7	88.3
HumanEval	89.0	90.2	92.0
MATH-500	90.2	81.4	78.3
中文 C-Eval	86.5	76.0	80.4

中文上明显超过 GPT-4o—— DeepSeek 的本土优势。

DeepSeek-R1（2025 年 1 月）

推理模型——对标 OpenAI o1：

任务	DeepSeek-R1	OpenAI o1
AIME 2024 (数学奥赛)	79.8%	83.3%
MATH-500	97.3%	96.4%
HumanEval	90.1%	92.4%
Codeforces	96.3%	96.6%

几乎全部接近 o1—— 但完全开源 + API 价格只有 o1 的 1/27。

论文披露的关键技术

V3 的几个创新

1. Multi-head Latent Attention（MLA）

KV Cache 杀手—— 把 K, V 压缩到一个低维 latent space：

传统 KV: 每个 token 保留 完整 K, V
MLA: 把 KV 联合压缩到 latent vector，推理时再展开

显存节省: ~5×
质量损失: 几乎为零

这让长上下文（128k）成本大幅下降。

2. DeepSeekMoE 架构

不是传统 8 专家的 MoE—— 256 个专家 + 8 个共享专家。每个 token 激活 8 个 + 8 个共享 = 实质用 16 个。

设计上：

细粒度专家（每个小，但多）→ 更精准路由
共享专家（每个 token 都用）→ 学到通用知识

3. FP8 训练

DeepSeek 是第一个大规模用 FP8 训练的开源模型：

比 FP16 快 2×
比 FP16 省 2× 显存
关键创新：自适应 scaling 防止精度损失

这一改进直接砍掉了一半训练成本。

4. Multi-Token Prediction (MTP)

每步不只预测下一个 token—— 同时预测后面 2-4 个。

传统: prompt → predict next 1 token
MTP: prompt → predict next 4 tokens（用辅助 head）

好处：

训练信号更密集
推理时可直接用作 speculative decoding
训练效率提升

5. 训练数据策略

14.8T tokens 的训练数据—— 质量 + 多样性精心策划：

大量代码（推理能力来源）
大量数学（CoT 训练）
多语言（特别强化中文）
严格去重 + 质控

R1 的”零样本”推理学习

DeepSeek-R1 最让人震惊的部分—— 完全用 RL（不用 SFT）学到推理。

传统范式（OpenAI 等）：

基础模型 → SFT（教推理样例） → RL → 推理模型

R1 的做法：

基础模型 → 纯 RL（用规则奖励） → 推理涌现 → "AHA moment"

Rule-based reward

不用人工偏好评分—— 用可验证的规则给奖励：

def reward(question, answer):
    # 数学题：答案是否正确？
    if math_problem(question):
        return 1 if correct_answer(answer, ground_truth) else 0
    # 代码：是否通过单元测试？
    if code_problem(question):
        return 1 if pass_tests(answer) else 0
    # 推理 CoT：格式是否对？
    if reasoning_quality(answer):
        return 1
    return 0

纯规则可验证的反馈——比 RLHF 简单 + 客观。

“Aha moment”

训练过程中模型涌现出反思行为：

模型一开始：直接答
↓ RL 训练
模型尝试推理：写一些 CoT
↓ 继续训练
模型涌现"反思"：
  "Wait, let me reconsider..."
  "Actually, I made a mistake here..."
  "Let me try a different approach..."

研究者称之为 “aha moment”—— 模型自发学会”质疑 + 重新尝试”。

这是 AI 自学习的关键现象。

技术报告震撼之处

1. 极致的工程效率

DeepSeek 团队优化每一处细节：

自定义 GPU kernel
通信 / 计算重叠
内存复用
数据 pipeline 优化

类似”美国 AI 公司用规模解决问题，中国团队用工程解决问题”—— 文化差异在算法层的体现。

2. 完全开源

V3 / R1 都完全开源—— 不只权重，连部分训练数据 + 训练代码都公开。

对比：

GPT-4：完全闭源
Claude：完全闭源
Llama 3：权重开源，数据/代码部分公开
DeepSeek：最开放

3. 价格屠杀

DeepSeek-V3 API：

Input: $0.14 / M tokens
Output: $0.28 / M tokens

OpenAI GPT-4o：

Input: $5 / M
Output: $15 / M

DeepSeek 价格是 GPT-4o 的 1/35-1/50。

这直接逼着 OpenAI、Anthropic 调价—— 整个 LLM API 价格在 2025 年砍掉 70%+。

对行业的冲击

1. “美国 AI 霸权” 的质疑

之前的叙事：

AI 是美国主导的
中国会落后 5-10 年
需要巨大投资才能追

DeepSeek 直接打脸：

不需要巨大投资（ $5.6M vs$ 100M+）
不需要美国 GPU（用 H800、有限制版）
不需要美国数据（中文数据足够）

2025 年 1 月 27 日—— 英伟达股票一天跌 17%，市值蒸发 6000 亿美元。投资者第一次怀疑”AI = 巨大 GPU 投资”的逻辑。

2. “出口管制可能反促进创新”

美国 2022 年起对中国 GPU 出口限制：

不能买 A100 / H100
只能买 H800（性能阉割版）

DeepSeek 在这种限制下做出 SOTA—— 说明限制反而逼出了创新。

这是 hardware 限制催生 software / algorithm 突破的经典案例。

3. 开源生态获胜

DeepSeek 之后：

任何公司能基于它做应用
任何研究者能基于它做实验
任何国家不用依赖美国 LLM

开源 vs 闭源的格局——彻底倒向开源。

一些有趣的细节

DeepSeek 是谁

幻方量化（High-Flyer）—— 中国量化基金的 AI 子部门。

公司创始人梁文锋—— 量化交易员出身，2023 年成立 DeepSeek。

“做量化攒了 5 万张 A100，闲着也是闲着，训训模型呗”—— 梁文锋的早期访谈大意。

训练故事

V3 训练用了 2048 张 H800—— 约 2 个月。团队人数：130 人（远少于 OpenAI / Anthropic 的 1000+）。

小团队 + 高效 = 突破。

“DeepSeek 时刻”

2025 年 1 月 R1 发布—— 被称为 “DeepSeek Moment”—— 类似 1957 年苏联 Sputnik 卫星升空的”震撼时刻”。

美国整个 AI 行业重新评估自己的竞争优势。

论文之后

后续工作

DeepSeek-V3.5（2025 中）
DeepSeek-R2（2025 末，传闻）
DeepSeek-Coder V3 —— 代码专用版

行业反应

Meta：加速 Llama 4 开发
OpenAI：发布 o3 反击
Anthropic：Claude 4 加速
国内：阿里、字节、腾讯、月之暗面跟进

长期影响

2025 之后：

开源模型不再落后
LLM 价格全面下降
AI 创业门槛降低
垂直应用爆发

怎么用

API（最便宜）

from openai import OpenAI  # DeepSeek API 兼容 OpenAI 格式
client = OpenAI(api_key="your_key", base_url="https://api.deepseek.com")

response = client.chat.completions.create(
    model="deepseek-chat",  # 或 "deepseek-reasoner" 用 R1
    messages=[{"role": "user", "content": "Solve x^2 + 5x + 6 = 0"}]
)
print(response.choices[0].message.content)

本地部署

# 用 Ollama
ollama pull deepseek-v3:671b  # 完整版（需要 8+ H100）
ollama pull deepseek-r1:7b    # 蒸馏小版本（消费级 GPU 可跑）

蒸馏版本

DeepSeek 同时发布了蒸馏到小模型的版本：

DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Llama-70B

性能远超原版 Qwen / Llama—— 说明 R1 的”推理能力”能被蒸馏。

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。