📄 论文精读 · 2024 · ICML 2024
Transformers are SSMs: Generalized Models and Efficient Algorithms (Mamba 2)
Tri Dao, Albert Gu
TL;DR
Mamba 团队的反击——证明 Transformer 和 SSM 在数学上等价,并提出更快的 Mamba 2 架构。SSM 路线的关键升级。
#Mamba#SSM#架构#前沿
为什么这篇论文重要
2023 年的 Mamba 被 ICLR 拒了—— 但社区反响巨大。
2024 年作者 Tri Dao + Albert Gu 又发了 Mamba 2—— 这次被 ICML 接收 + 引爆学术界。
更深远的意义:
证明了 SSM 和 Attention 在数学上是等价的——它们是同一种”状态空间序列模型”的两种表达。
这把”Transformer vs Mamba”的二元对立—— 变成了”同一框架下的两种实现”。
论文的核心定理
定义新框架:State Space Duality (SSD)—— 状态空间对偶性。
任何可表达为”线性时不变状态空间方程”的模型—— 都同时有两种表达:
- “循环视角” (如 Mamba / SSM)
- “注意力视角” (如 Transformer)
两者:
- 训练时用注意力视角(并行化好)
- 推理时用循环视角(速度快、显存少)
这是计算图论上的优雅—— 让两个 community 合并。
Mamba 2 的关键改进
1. 简化 SSM 数学
原 Mamba 中 矩阵复杂—— Mamba 2 用 scalar A + diagonal A —— 减少参数 + 更适合硬件。
2. 大幅提速
通过新算法 + 硬件优化:
- Selective scan: 4× 比 Mamba 1 快
- State expansion size: 8× 提升
- 显存使用更优
3. 模型质量提升
| 模型 | Perplexity (Pile, 1.4B) |
|---|---|
| Transformer | 11.42 |
| Mamba 1 | 11.20 |
| Mamba 2 | 10.93 |
同尺寸下击败 Transformer—— 小尺度上的优势更明确。
那个核心思想:序列建模的统一观
论文最深的部分—— 所有”高效序列模型”都是 SSD 的特例:
- Transformer(标准 attention)
- Linear Attention
- Mamba / S4 / S5
- RWKV
- RetNet
- xLSTM
它们的差异:
- 不同的 “结构假设”(什么矩阵被允许)
- 不同的 “计算视角”(attention vs 循环)
- 不同的 “硬件优化”
但底层数学一致。
这是物理学般的”统一理论”—— 减少了”哪种架构更好”的争论。
论文之后
2024-2025 SSM 生态爆发
- Falcon-Mamba (UAE TII)—— 第一个商用 Mamba LLM
- Codestral Mamba(Mistral)—— 编程专用
- Zamba(Zyphra)—— Mamba + Attention 混合
- Jamba(AI21)—— MoE + Mamba 混合
- Granite Mamba(IBM)—— 企业级
工业接受度
2025 年 SSM 已经成为主流选项之一—— 但 Transformer 仍占主导。
实际部署:
- 文本任务:Transformer + Mamba 混合 增多
- 视频 / 长序列:Mamba 优势明显
- 代码 / 推理:Transformer 仍占优
一些有意思的细节
”Tri Dao + Albert Gu”
两人在系统 ML 上几乎”出圈了”:
- Tri Dao:FlashAttention + Mamba
- Albert Gu:S4 + Mamba 系列
- 合作多次——研究方向高度互补
他们代表了算法 + 硬件协同设计的范式。
ICML vs ICLR
Mamba 1 被 ICLR 拒了—— Mamba 2 被 ICML 接收。
12 个月间,社区从怀疑到接受—— 学术圈的”风向” 转变之快。
推荐配套阅读
- HelloAI: L3-04 RNN / LSTM + L3-05 Attention
- Mamba 2 论文 —— 数学硬核
- State Space Models series(Albert Gu)
- FlashAttention 2 / 3 —— 同作者
💡 一个观察
2025 年的架构格局:
- Transformer:主流,每代优化
- Mamba 系列:长序列优势,慢慢渗透
- 混合架构(Mamba + Attention):实战上很有竞争力
没有”必胜者”—— 不同任务用不同架构。 保持开放,持续学习。
📬
想要更多论文精读
订阅每周精选 —— 下一篇论文笔记直接送邮箱。
💬
讨论区
· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 ——
在
src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。