每周精读 + 必读经典
不只是摘要——逐段精读 + 中文导读 + 复现代码
DeepSeek-V3 / R1:开源推理模型的革命
DeepSeek 用 $5.6M 训出接近 GPT-4 的开源模型——震动了整个行业。证明"开源 + 高效工程 + 创新算法" 能挑战美国巨头。
Learning to Reason with LLMs (OpenAI o1)
推理时计算的范式转变——让 LLM 在回答前花更多时间"思考",复杂问题准确率从 20% 升到 80%。开启了"推理模型"时代。
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
Phi-3 mini 仅 3.8B 参数——但在多项 benchmark 上接近 GPT-3.5。证明了"小模型 + 极致数据质量"是另一条路。
Video generation models as world simulators (Sora)
OpenAI 的视频生成模型 Sora——把视频切成"时空 patch"用 Transformer 做扩散。1 分钟高质量视频成为可能,"AI 世界模拟器"露端倪。
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
挑战 Transformer 霸权的"选择性状态空间模型"——线性复杂度处理超长序列,理论上能取代 Transformer。2024 年最热的架构研究之一。
Denoising Diffusion Probabilistic Models (DDPM)
提出 DDPM —— 用"加噪 → 去噪"的范式做图像生成。Stable Diffusion、Sora 都基于这个思路。
DeepSeek-V3 / R1:开源推理模型的革命
DeepSeek 用 $5.6M 训出接近 GPT-4 的开源模型——震动了整个行业。证明"开源 + 高效工程 + 创新算法" 能挑战美国巨头。
Gemini: A Family of Highly Capable Multimodal Models
Google 用 6 年时间 + 1 万张 TPU 训出的"原生多模态"大模型。1M+ 上下文窗口,是 GPT-4 的最大挑战者之一。
The Llama 3 Herd of Models
Meta 公开了 Llama 3 405B 的完整训练细节——开源模型首次达到 GPT-4 级别。92 页技术报告揭秘大模型训练的工程实战。
Learning to Reason with LLMs (OpenAI o1)
推理时计算的范式转变——让 LLM 在回答前花更多时间"思考",复杂问题准确率从 20% 升到 80%。开启了"推理模型"时代。
Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
Anthropic 证明:可以训练一个"装好的"AI——表面对齐,遇到特定触发词激活恶意行为。而且当前所有对齐方法都检测不出来。
Direct Preference Optimization (DPO)
把 RLHF 简化成一个简单的损失函数——跳过奖励模型和 PPO,效果接近,工程简单 10 倍。开源 LLM 对齐的事实标准。
Visual Instruction Tuning (LLaVA)
把 CLIP + LLaMA + 指令微调 缝合起来——开源多模态指令模型的起点。让"图像+对话"AI 进入开源社区。
Segment Anything (SAM)
Meta 的"图像分割基础模型"——点一下就能分割任何物体。开源 + 1100 万张图 + 1 亿 mask,让"通用分割"成为现实。
Training Compute-Optimal Large Language Models (Chinchilla)
DeepMind 证明 GPT-3 等大模型"参数太多、数据太少"。给出了"算力如何在参数和数据间最优分配"的新法则——重塑了大模型训练。
Constitutional AI: Harmlessness from AI Feedback
Anthropic 提出的对齐新方法——让 AI 用"宪法原则"自评自改,跳过大量人类标注。Claude 的核心训练秘密。
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
通过感知 GPU 内存层级,让注意力计算快 2-4 倍 + 显存少 10 倍——而且数学上完全相同。所有现代 LLM 都用它。
Training language models to follow instructions with human feedback (InstructGPT)
从 GPT-3 到 ChatGPT 的"桥梁"。提出 SFT + RLHF 三阶段训练让 LLM "听话"——这套流程定义了之后所有商业 LLM 的训练范式。
Robust Speech Recognition via Large-Scale Weak Supervision (Whisper)
OpenAI 用 68 万小时弱监督音频训出最强 ASR。开源后统治整个开源语音识别市场。99 种语言通吃。
Highly Accurate Protein Structure Prediction with AlphaFold
DeepMind 用 Transformer 解决了 50 年的"蛋白质折叠"问题。预测了所有已知生物的 2 亿个蛋白质结构。2024 年诺贝尔化学奖。
Learning Transferable Visual Models From Natural Language Supervision (CLIP)
用 4 亿张"图 + 描述"对训练——让图像 encoder 和文本 encoder 在同一向量空间对齐。从此 AI 能"看图说话","看图作画"。
LoRA: Low-Rank Adaptation of Large Language Models
Microsoft 提出 LoRA—只训 0.01% 参数 + 不损失性能 = 让"消费级 GPU 微调大模型"成为可能。开源 LLM 微调生态的关键技术。
TruthfulQA: Measuring How Models Mimic Human Falsehoods
一个测 LLM "是否真实"的 benchmark。第一次系统揭示:模型越大,反而在某些常见误区上越错。
Denoising Diffusion Probabilistic Models (DDPM)
提出 DDPM —— 用"加噪 → 去噪"的范式做图像生成。Stable Diffusion、Sora 都基于这个思路。
Language Models are Few-Shot Learners (GPT-3)
175B 参数的 GPT-3 展示了"in-context learning"——不微调,只给几个例子就能学会新任务。这篇论文重新定义了人们对 LLM 的预期。
Scaling Laws for Neural Language Models
OpenAI 2020 年的奠基性发现——"模型损失随参数、数据、算力呈幂律下降"。这条曲线是 GPT-3、GPT-4 等大模型投资的理论基础。
The Pile: An 800GB Dataset of Diverse Text for Language Modeling
EleutherAI 开源的 800GB 训练数据集——第一个真正可用的"GPT-3 级别"开源训练数据。开源 LLM 革命的"砖头"。
BERT: Pre-training of Deep Bidirectional Transformers
2018 年的 NLP 核爆。提出 Masked Language Modeling + 双向 Transformer,让"预训练 + 微调"成为 NLP 主流范式。
Attention Is All You Need
提出 Transformer 架构——完全抛弃 RNN,只用注意力机制。这篇 8 页的论文催生了今天所有大模型。被引 12 万+。
Deep Residual Learning for Image Recognition
提出残差连接(skip connection),让神经网络能训到 100+ 层。CVPR 2016 最佳论文,引用 25 万+,至今所有大模型仍在用这个技巧。