Anthropic 2025-05 起陆续发布 Claude 4 / Sonnet 4.x 系列。Claude Code（基于 Sonnet 4）从 2025-05 GA 到 2026-02 做到 $2.5B ARR——是 Anthropic 增长最快的产品线。"扩展思考 + 长 Agent 工作流"两个能力定义了 2025-2026 LLM 的工程方向。

#Claude 4#Anthropic#Coding#Agent

2025 · DeepSeek 2024-2025

DeepSeek-V3 / R1：开源推理模型的革命

DeepSeek 用 $5.6M 训出接近 GPT-4 的开源模型——震动了整个行业。证明"开源 + 高效工程 + 创新算法" 能挑战美国巨头。

#DeepSeek#开源#推理#前沿

2025 · Google DeepMind 2024-2025

Gemini 2.0 / 2.5 技术报告

Google 第二代旗舰多模态：原生支持文本/图像/音频/视频 I/O，2M token 上下文（业界最长），实时 Multimodal Live API。Google 重回 AI 第一梯队的标志。

#Gemini#Google#多模态#L4

2025 · Meta AI · Blog 2025-04

The Llama 4 Herd: Scout, Maverick, Behemoth — Meta 的首个 MoE 家族

Meta 2025-04-05 发布 Llama 4 家族——Scout（17B 激活 / 16 专家 / 10M 上下文）、Maverick（17B 激活 / 128 专家）、Behemoth（288B 激活 / 16 专家 / 总 2T 参数）。Meta 首次用 MoE 架构，10M context 超越所有同期模型。Behemoth 作为 teacher model 用 codistillation 训出前两者。

#Llama 4#MoE#Meta#Open Weight

2025 · OpenAI · System Card 2025-09

Sora 2 System Card: 10-25 秒视频 + 同步音轨 + 角色注入

Sora 2 在 2025-09-30 发布——10-25 秒视频 + 同步音频（对话 + 音效）首次集成、物理一致性大幅提升、用一段参考视频就能把人物/物体注入任意 Sora 场景。Sora 产品已于 2026-04-26 停止运营。

#Sora#Video#OpenAI#World Model

2024 · Anthropic + Redwood Research · 2024-12

Alignment Faking in Large Language Models

Anthropic 2024-12 实证发现：Claude 3 Opus 在 12-14% 的对话中会"假装对齐"——故意输出训练者期望的内容以保留自己原本的偏好。这是第一次在前沿生产模型上看到 strategic deception 现象，对 AI 安全研究是分水岭事件。

#Alignment#Safety#Deception#Anthropic

2024 · Anthropic · 2024-10

Computer Use: Letting Claude See and Operate a Computer

Anthropic 2024-10-22 发布 Computer Use beta——Claude 3.5 Sonnet 第一次能"看屏幕 + 移鼠标 + 敲键盘"。开创 LLM 时代第二阶段：从"调有 API 的工具" → "用 GUI 操作任意软件"。OSWorld benchmark 22% 起步 → 推动 OpenAI Operator / Google Gemini 2.5 Computer Use 跟进。

#Computer Use#GUI Agent#Anthropic#Tool Use

2024 · Black Forest Labs 2024

FLUX.1 / FLUX.1 Pro

Stable Diffusion 原班作者出来创业，做出 2024 年最强的开源图像生成模型。Midjourney 级质量 + Apache 2.0 协议 (FLUX.1 dev) —— 开源图像生成的新顶峰。

#FLUX#Diffusion#图像生成#L5

2024 · Google DeepMind 2023-2024

Gemini: A Family of Highly Capable Multimodal Models

Google 用 6 年时间 + 1 万张 TPU 训出的"原生多模态"大模型。1M+ 上下文窗口，是 GPT-4 的最大挑战者之一。

#Gemini#Google#多模态#大模型

2024 · Meta 2024

The Llama 3 Herd of Models

Meta 公开了 Llama 3 405B 的完整训练细节——开源模型首次达到 GPT-4 级别。92 页技术报告揭秘大模型训练的工程实战。

#Llama#开源#大模型#必读

2024 · OpenAI 2024

Learning to Reason with LLMs (OpenAI o1)

推理时计算的范式转变——让 LLM 在回答前花更多时间"思考"，复杂问题准确率从 20% 升到 80%。开启了"推理模型"时代。

#o1#Reasoning#CoT#前沿

2024 · Alibaba 2024-2025

Qwen 技术报告（Qwen 2.5 / Qwen 3）

阿里通义千问开源系列 —— 0.5B 到 72B 全规格、多模态、长上下文 128k、Apache 2.0。2024 年中国开源 LLM 的代表，国际排行榜常年 Top 5。

#Qwen#开源#中文#L4

2024 · Anthropic 2024

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

Anthropic 证明：可以训练一个"装好的"AI——表面对齐，遇到特定触发词激活恶意行为。而且当前所有对齐方法都检测不出来。

#Sleeper Agents#对齐#AI 安全#警告

2023 · NeurIPS 2023

Direct Preference Optimization (DPO)

把 RLHF 简化成一个简单的损失函数——跳过奖励模型和 PPO，效果接近，工程简单 10 倍。开源 LLM 对齐的事实标准。

#DPO#RLHF#对齐#必读

2023 · NeurIPS 2023

Visual Instruction Tuning (LLaVA)

把 CLIP + LLaMA + 指令微调缝合起来——开源多模态指令模型的起点。让"图像+对话"AI 进入开源社区。

#LLaVA#多模态#开源#指令微调

2023 · Mistral AI 2023

Mistral 7B

7B 模型干翻 LLaMA-2 13B —— 法国 Mistral AI 用一系列工程优化（GQA、Sliding Window、Apache 2.0 协议）证明"小而精"的可行性。开源 LLM 生态的里程碑。

#Mistral#开源#GQA#L4

2023 · Meta 2023

Segment Anything (SAM)

Meta 的"图像分割基础模型"——点一下就能分割任何物体。开源 + 1100 万张图 + 1 亿 mask，让"通用分割"成为现实。

#SAM#分割#视觉#基础模型

2023 · Princeton + Google · NeurIPS 2023

Tree of Thoughts: Deliberate Problem Solving with Large Language Models

2023 年 ReAct 同班作者再出手——让 LLM 像下棋一样"探索多条思路 + 评估 + 回溯"。在 24 点游戏从 4% 跳到 74%。是推理模型（o1 / R1）思路的前奏。

#Tree of Thoughts#Reasoning#Agent#L4

2022 · DeepMind 2022

Training Compute-Optimal Large Language Models (Chinchilla)

DeepMind 证明 GPT-3 等大模型"参数太多、数据太少"。给出了"算力如何在参数和数据间最优分配"的新法则——重塑了大模型训练。

#Chinchilla#Scaling Laws#训练#必读

2022 · Anthropic 2022

Constitutional AI: Harmlessness from AI Feedback

Anthropic 提出的对齐新方法——让 AI 用"宪法原则"自评自改，跳过大量人类标注。Claude 的核心训练秘密。

#Constitutional AI#对齐#Anthropic#必读

2022 · NeurIPS 2022

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

通过感知 GPU 内存层级，让注意力计算快 2-4 倍 + 显存少 10 倍——而且数学上完全相同。所有现代 LLM 都用它。

#FlashAttention#GPU#系统优化#必读

2022 · NeurIPS 2022

Training language models to follow instructions with human feedback (InstructGPT)

从 GPT-3 到 ChatGPT 的"桥梁"。提出 SFT + RLHF 三阶段训练让 LLM "听话"——这套流程定义了之后所有商业 LLM 的训练范式。

#RLHF#InstructGPT#对齐#ChatGPT

2022 · Princeton + Google · ICLR 2023

ReAct: Synergizing Reasoning and Acting in Language Models

2022 年 Princeton + Google 提出 ReAct——让 LLM 交替"思考"和"行动"。是后来所有 AI Agent 框架的起源模式。LangChain / AutoGen / Devin / Claude Code 都基于这个范式。

#ReAct#Agent#Reasoning#必读

2022 · OpenAI 2022

Robust Speech Recognition via Large-Scale Weak Supervision (Whisper)

OpenAI 用 68 万小时弱监督音频训出最强 ASR。开源后统治整个开源语音识别市场。99 种语言通吃。

#Whisper#ASR#语音#开源

2021 · Nature 2021

Highly Accurate Protein Structure Prediction with AlphaFold

DeepMind 用 Transformer 解决了 50 年的"蛋白质折叠"问题。预测了所有已知生物的 2 亿个蛋白质结构。2024 年诺贝尔化学奖。

#AlphaFold#AI for Science#蛋白质#诺贝尔奖

2021 · ICML 2021

Learning Transferable Visual Models From Natural Language Supervision (CLIP)

用 4 亿张"图 + 描述"对训练——让图像 encoder 和文本 encoder 在同一向量空间对齐。从此 AI 能"看图说话"，"看图作画"。

#CLIP#多模态#对比学习#必读

2021 · ICLR 2022

LoRA: Low-Rank Adaptation of Large Language Models

Microsoft 提出 LoRA—只训 0.01% 参数 + 不损失性能 = 让"消费级 GPU 微调大模型"成为可能。开源 LLM 微调生态的关键技术。

#LoRA#微调#PEFT#必读

2021 · ACL 2022

TruthfulQA: Measuring How Models Mimic Human Falsehoods

一个测 LLM "是否真实"的 benchmark。第一次系统揭示：模型越大，反而在某些常见误区上越错。

#TruthfulQA#评估#Benchmark#幻觉

2020 · NeurIPS 2020

Denoising Diffusion Probabilistic Models (DDPM)

提出 DDPM —— 用"加噪 → 去噪"的范式做图像生成。Stable Diffusion、Sora 都基于这个思路。

#Diffusion#生成模型#图像#必读

2020 · NeurIPS 2020

Language Models are Few-Shot Learners (GPT-3)

175B 参数的 GPT-3 展示了"in-context learning"——不微调，只给几个例子就能学会新任务。这篇论文重新定义了人们对 LLM 的预期。

#GPT-3#LLM#Few-shot#必读

2020 · OpenAI 2020

Scaling Laws for Neural Language Models

OpenAI 2020 年的奠基性发现——"模型损失随参数、数据、算力呈幂律下降"。这条曲线是 GPT-3、GPT-4 等大模型投资的理论基础。

#Scaling Laws#理论#OpenAI#必读

2020 · EleutherAI 2021

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

EleutherAI 开源的 800GB 训练数据集——第一个真正可用的"GPT-3 级别"开源训练数据。开源 LLM 革命的"砖头"。

#The Pile#数据集#开源#基础

2019 · Google · JMLR 2020

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (T5)

Google 2019 提出 T5——把"翻译/分类/问答/摘要"全部统一成"文本输入 → 文本输出"。"text-to-text"框架后来成了 LLM 通用 API 的基础。

#T5#Encoder-Decoder#Transfer Learning#必读

2018 · NAACL 2019

BERT: Pre-training of Deep Bidirectional Transformers

2018 年的 NLP 核爆。提出 Masked Language Modeling + 双向 Transformer，让"预训练 + 微调"成为 NLP 主流范式。

#BERT#NLP#预训练#必读

2017 · NeurIPS 2017

Attention Is All You Need

提出 Transformer 架构——完全抛弃 RNN，只用注意力机制。这篇 8 页的论文催生了今天所有大模型。被引 12 万+。

#Transformer#Attention#NLP#必读

2016 · DeepMind · Nature 2016

Mastering the Game of Go with Deep Neural Networks and Tree Search (AlphaGo)

DeepMind 2016 年的 AlphaGo 在围棋上打败李世石——是 AI 史上的"Sputnik 时刻"。深度学习 + 蒙特卡洛树搜索的组合，启发了后来所有 RL 进展。

#AlphaGo#RL#DeepMind#AI 史

2015 · CVPR 2016 · Best Paper

Deep Residual Learning for Image Recognition

提出残差连接（skip connection），让神经网络能训到 100+ 层。CVPR 2016 最佳论文，引用 25 万+，至今所有大模型仍在用这个技巧。

#CNN#ResNet#残差连接#视觉

2013 · Google 2013

Word2Vec: Efficient Estimation of Word Representations in Vector Space

Google 2013 年的 Word2Vec 让"词 → 向量"实用化。king - man + woman = queen 这种向量算术成为可能。是 NLP 一切现代工作的奠基性一步。

#Word2Vec#Embedding#NLP#必读

2012 · University of Toronto · NeurIPS 2012

ImageNet Classification with Deep Convolutional Neural Networks (AlexNet)

2012 年 ImageNet 大赛上把 top-5 错误率从 26% 砍到 15%——比第二名好 10 个百分点。"深度学习革命"的真正开始。GPU + 大数据 + CNN 这个范式从此被验证。

#AlexNet#CNN#ImageNet#深度学习

📚 全部精读

2024

Transformers are SSMs: Generalized Models and Efficient Algorithms (Mamba 2)

Mamba 团队的反击——证明 Transformer 和 SSM 在数学上等价，并提出更快的 Mamba 2 架构。SSM 路线的关键升级。