HelloAI
📄 论文精读 🏆 必读经典 · 2021 · Nature 2021

Highly Accurate Protein Structure Prediction with AlphaFold

John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, et al.
TL;DR
DeepMind 用 Transformer 解决了 50 年的"蛋白质折叠"问题。预测了所有已知生物的 2 亿个蛋白质结构。2024 年诺贝尔化学奖。
#AlphaFold#AI for Science#蛋白质#诺贝尔奖#必读

为什么这篇论文重要

“蛋白质折叠”是生物学的”圣杯问题”——50 年来无解。

AlphaFold 2 在 2020-2021 年用 AI 解决了它

2024 年 10 月—— John Jumper(AlphaFold 主要作者)和 Demis Hassabis(DeepMind CEO)获得诺贝尔化学奖

这是 AI 第一次得诺贝尔奖。

也是计算机科学家第一次因为”解决了一个其它学科的问题”得到该学科最高奖项。

蛋白质折叠是什么

生物学基础

蛋白质是生命的功能分子——做几乎所有事:

  • 酶(催化反应)
  • 抗体(免疫)
  • 结构(肌肉、皮肤)
  • 信号(激素)

每个蛋白质由 20 种氨基酸组成的一串”序列”——但它的功能由 3D 形状决定,不是序列。

一维序列: MKTAYIAKQRQISFVKSHFSRQ...  (基因决定的)

              折叠

三维结构: 复杂的 3D 形状 (决定功能)

“折叠” 是序列 → 形状的过程。在生物体内瞬间发生。

为什么这是个难题

理论上,给定序列,3D 结构由物理规律唯一决定—— 但实际计算太复杂:

  • 一个 100 氨基酸的蛋白可能有 10⁴⁷⁵ 种构象
  • 比宇宙中的原子还多
  • 暴力搜索完全不可能

50 年来,科学家用:

  • X 射线晶体学(实验测)——昂贵、慢、不是所有蛋白都能测
  • 冷冻电镜——更新方法,仍然慢贵

结果:人类有几十亿蛋白序列,但只测出了几十万 3D 结构—— 还有几亿个未知。

AlphaFold 之前

CASP(Critical Assessment of Structure Prediction)是双年一次的蛋白结构预测比赛。

2018 年 CASP13:AlphaFold 1 —— DeepMind 第一次参赛。 2020 年 CASP14:AlphaFold 2 —— 准确率 92.4 GDT—— 接近实验精度。第二名只有 75。

这不是渐进改善——这是范式革命问题被解决了

AlphaFold 2 的核心技术

1. Evoformer(自定义 Transformer)

不是普通 Transformer—— AlphaFold 设计了一个专门处理”多序列对比 + 残基对”的双轨注意力:

输入:
- MSA(多序列对比)—— 同源蛋白质序列堆叠
- Residue pairs —— 每对氨基酸的"距离"特征

Evoformer 让 MSA 和 pairs 互相 attention 48 层:
- MSA 信息 → 更新 pairs
- pairs 信息 → 更新 MSA
- 反复迭代

核心:让”进化信号”(同源序列)和”几何关系”(距离)互相约束。

2. Structure Module(结构生成)

最后阶段,用 IPA(Invariant Point Attention)从 pairs 信息直接预测 3D 坐标:

每个氨基酸 = 一个"刚体"(3D 位置 + 旋转)
模型预测每个刚体的位置和旋转

IPA 的精妙之处:天然遵守”旋转/平移不变性”—— 转动整个分子,预测的”相对距离”不变。这是物理对称性。

3. Recycling(循环迭代)

预测一次后,把结果反馈回去再预测——3 次 recycling 让精度持续提升。

类似人类”先粗看再细看”。

训练

  • 数据:PDB(蛋白质数据库)的所有已知结构——约 17 万个
  • 算力:128 张 TPU v3,几周训练
  • 规模:5 亿参数(相对小,但精心设计)

结果:训完后能预测任意蛋白结构。

CASP14 的成绩

任务AlphaFold 2第二名实验精度
整体 GDT_TS92.475.5~95
困难目标 GDT_TS87.050-60~95

接近实验精度——意味着可以用 AI 预测替代昂贵的 X 射线晶体学。

CASP 主席 John Moult 评价: “It’s a game changer. … the protein folding problem is largely solved.”

AlphaFold 之后

DeepMind 做了一件史诗级的事

预测了所有已知物种的全部蛋白结构——2 亿+。 2022-2023 年逐步开放给科学界。

50 年生物学家手工做了 17 万个,AI 几个月做了 2 亿个。

AlphaFold 数据库的影响

每天数万研究者访问:

  • 找新药靶点
  • 设计酶
  • 理解疾病机制
  • 加速疫苗开发

这是 AI 对人类的”实际贡献”——而不只是”产品功能”

AlphaFold 3 (2024)

DeepMind 又升级了:

  • 不只蛋白——预测蛋白 + DNA + RNA + 配体的复合体结构
  • 用 Diffusion 替代了部分 Structure Module
  • 准确度进一步提升

这让”药物设计”的 AI 化更进一步—— 靶蛋白 + 候选药物的结合方式可以 AI 预测。

一些细节

团队组成

AlphaFold 团队 既不是纯 ML 也不是纯生物——

  • ML 研究者
  • 计算生物学家
  • 结构生物学家
  • 物理学家

跨学科是关键——纯 ML 团队做不出来。

“AlphaFold 是不是 AI 终结了生物学”

不—— 它解决了一个旧问题,开启了一堆新问题

  • 蛋白如何与其它分子相互作用?
  • 动态构象怎么预测?
  • 多蛋白复合体?
  • 设计全新蛋白?

解决一个问题 = 让 10 个新问题清晰起来。

为什么没有”AlphaFold for X”

AlphaFold 成功的几个因素:

  1. 大量训练数据(PDB 50 年积累)
  2. 明确目标(3D 坐标,可衡量)
  3. 物理约束(蛋白折叠遵守已知规律)

其它生物问题(药物设计、CRISPR)数据量小—— 所以没有同等突破。

这篇论文的意义

重新定义了”AI 能做什么”

之前:AI 玩游戏、翻译、生成图——人类活动 AlphaFold:AI 解决自然界的科学问题——

“AI for Science” 时代的开启者。

后续 AI for Science 浪潮

  • AlphaMissense(DeepMind 2023):预测基因变异是否致病
  • AlphaProteo(DeepMind 2024):设计全新蛋白
  • DeepMind 数学:解决数学猜想(IMO 银牌)
  • AlphaFold-NMR / Diffusion 蛋白设计 等等

2025-2030 年最重要的 AI 应用,可能不是 ChatGPT,是 AlphaFold 的延伸

代码

DeepMind 开源了完整 AlphaFold 2 代码 + 预训练权重:

git clone https://github.com/google-deepmind/alphafold.git

但运行需要:

  • 大量序列数据库(~3TB)
  • GPU 推理(8GB+ 显存)
  • 复杂的依赖

入门更简单的方式

  • ColabFold(开源社区简化版):在 Google Colab 上几分钟预测一个蛋白
  • AlphaFold Server(DeepMind 官方):网页输入序列,免费预测

推荐配套阅读

  • AlphaFold 2 Nature 论文(2021)—— 主论文
  • AlphaFold 3 Nature 论文(2024)—— 最新版
  • HelloAI: L5-01 多模态总览 中 “AI for Science” 部分
  • Mohammed AlQuraishi 的 NeurIPS 演讲 —— AlphaFold 之前的人是怎么想的
💡 一个时代的标志

2024 年 10 月,AlphaFold 拿了诺贝尔化学奖。

这是 AI 第一次得诺贝尔奖—— 意味着 AI 不只是”工具”,已经成为改变科学的力量

接下来 10 年:

  • AI 在物理、化学、生物的应用会全面爆发
  • 跨学科研究会成为常态
  • AI 研究者需要懂领域知识,领域研究者需要懂 AI

世界变了。

📬

想要更多论文精读

订阅每周精选 —— 下一篇论文笔记直接送邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。