Highly Accurate Protein Structure Prediction with AlphaFold
为什么这篇论文重要
“蛋白质折叠”是生物学的”圣杯问题”——50 年来无解。
AlphaFold 2 在 2020-2021 年用 AI 解决了它。
2024 年 10 月—— John Jumper(AlphaFold 主要作者)和 Demis Hassabis(DeepMind CEO)获得诺贝尔化学奖。
这是 AI 第一次得诺贝尔奖。
也是计算机科学家第一次因为”解决了一个其它学科的问题”得到该学科最高奖项。
蛋白质折叠是什么
生物学基础
蛋白质是生命的功能分子——做几乎所有事:
- 酶(催化反应)
- 抗体(免疫)
- 结构(肌肉、皮肤)
- 信号(激素)
每个蛋白质由 20 种氨基酸组成的一串”序列”——但它的功能由 3D 形状决定,不是序列。
一维序列: MKTAYIAKQRQISFVKSHFSRQ... (基因决定的)
↓
折叠
↓
三维结构: 复杂的 3D 形状 (决定功能)
“折叠” 是序列 → 形状的过程。在生物体内瞬间发生。
为什么这是个难题
理论上,给定序列,3D 结构由物理规律唯一决定—— 但实际计算太复杂:
- 一个 100 氨基酸的蛋白可能有 10⁴⁷⁵ 种构象
- 比宇宙中的原子还多
- 暴力搜索完全不可能
50 年来,科学家用:
- X 射线晶体学(实验测)——昂贵、慢、不是所有蛋白都能测
- 冷冻电镜——更新方法,仍然慢贵
结果:人类有几十亿蛋白序列,但只测出了几十万 3D 结构—— 还有几亿个未知。
AlphaFold 之前
CASP(Critical Assessment of Structure Prediction)是双年一次的蛋白结构预测比赛。
2018 年 CASP13:AlphaFold 1 —— DeepMind 第一次参赛。 2020 年 CASP14:AlphaFold 2 —— 准确率 92.4 GDT—— 接近实验精度。第二名只有 75。
这不是渐进改善——这是范式革命。 问题被解决了。
AlphaFold 2 的核心技术
1. Evoformer(自定义 Transformer)
不是普通 Transformer—— AlphaFold 设计了一个专门处理”多序列对比 + 残基对”的双轨注意力:
输入:
- MSA(多序列对比)—— 同源蛋白质序列堆叠
- Residue pairs —— 每对氨基酸的"距离"特征
Evoformer 让 MSA 和 pairs 互相 attention 48 层:
- MSA 信息 → 更新 pairs
- pairs 信息 → 更新 MSA
- 反复迭代
核心:让”进化信号”(同源序列)和”几何关系”(距离)互相约束。
2. Structure Module(结构生成)
最后阶段,用 IPA(Invariant Point Attention)从 pairs 信息直接预测 3D 坐标:
每个氨基酸 = 一个"刚体"(3D 位置 + 旋转)
模型预测每个刚体的位置和旋转
IPA 的精妙之处:天然遵守”旋转/平移不变性”—— 转动整个分子,预测的”相对距离”不变。这是物理对称性。
3. Recycling(循环迭代)
预测一次后,把结果反馈回去再预测——3 次 recycling 让精度持续提升。
类似人类”先粗看再细看”。
训练
- 数据:PDB(蛋白质数据库)的所有已知结构——约 17 万个
- 算力:128 张 TPU v3,几周训练
- 规模:5 亿参数(相对小,但精心设计)
结果:训完后能预测任意蛋白结构。
CASP14 的成绩
| 任务 | AlphaFold 2 | 第二名 | 实验精度 |
|---|---|---|---|
| 整体 GDT_TS | 92.4 | 75.5 | ~95 |
| 困难目标 GDT_TS | 87.0 | 50-60 | ~95 |
接近实验精度——意味着可以用 AI 预测替代昂贵的 X 射线晶体学。
CASP 主席 John Moult 评价: “It’s a game changer. … the protein folding problem is largely solved.”
AlphaFold 之后
DeepMind 做了一件史诗级的事:
预测了所有已知物种的全部蛋白结构——2 亿+。 2022-2023 年逐步开放给科学界。
50 年生物学家手工做了 17 万个,AI 几个月做了 2 亿个。
AlphaFold 数据库的影响
每天数万研究者访问:
- 找新药靶点
- 设计酶
- 理解疾病机制
- 加速疫苗开发
这是 AI 对人类的”实际贡献”——而不只是”产品功能”。
AlphaFold 3 (2024)
DeepMind 又升级了:
- 不只蛋白——预测蛋白 + DNA + RNA + 配体的复合体结构
- 用 Diffusion 替代了部分 Structure Module
- 准确度进一步提升
这让”药物设计”的 AI 化更进一步—— 靶蛋白 + 候选药物的结合方式可以 AI 预测。
一些细节
团队组成
AlphaFold 团队 既不是纯 ML 也不是纯生物——
- ML 研究者
- 计算生物学家
- 结构生物学家
- 物理学家
跨学科是关键——纯 ML 团队做不出来。
“AlphaFold 是不是 AI 终结了生物学”
不—— 它解决了一个旧问题,开启了一堆新问题:
- 蛋白如何与其它分子相互作用?
- 动态构象怎么预测?
- 多蛋白复合体?
- 设计全新蛋白?
解决一个问题 = 让 10 个新问题清晰起来。
为什么没有”AlphaFold for X”
AlphaFold 成功的几个因素:
- 大量训练数据(PDB 50 年积累)
- 明确目标(3D 坐标,可衡量)
- 物理约束(蛋白折叠遵守已知规律)
其它生物问题(药物设计、CRISPR)数据量小—— 所以没有同等突破。
这篇论文的意义
它重新定义了”AI 能做什么”:
之前:AI 玩游戏、翻译、生成图——人类活动 AlphaFold:AI 解决自然界的科学问题——
“AI for Science” 时代的开启者。
后续 AI for Science 浪潮
- AlphaMissense(DeepMind 2023):预测基因变异是否致病
- AlphaProteo(DeepMind 2024):设计全新蛋白
- DeepMind 数学:解决数学猜想(IMO 银牌)
- AlphaFold-NMR / Diffusion 蛋白设计 等等
2025-2030 年最重要的 AI 应用,可能不是 ChatGPT,是 AlphaFold 的延伸。
代码
DeepMind 开源了完整 AlphaFold 2 代码 + 预训练权重:
git clone https://github.com/google-deepmind/alphafold.git
但运行需要:
- 大量序列数据库(~3TB)
- GPU 推理(8GB+ 显存)
- 复杂的依赖
入门更简单的方式:
- ColabFold(开源社区简化版):在 Google Colab 上几分钟预测一个蛋白
- AlphaFold Server(DeepMind 官方):网页输入序列,免费预测
推荐配套阅读
- AlphaFold 2 Nature 论文(2021)—— 主论文
- AlphaFold 3 Nature 论文(2024)—— 最新版
- HelloAI: L5-01 多模态总览 中 “AI for Science” 部分
- Mohammed AlQuraishi 的 NeurIPS 演讲 —— AlphaFold 之前的人是怎么想的
2024 年 10 月,AlphaFold 拿了诺贝尔化学奖。
这是 AI 第一次得诺贝尔奖—— 意味着 AI 不只是”工具”,已经成为改变科学的力量。
接下来 10 年:
- AI 在物理、化学、生物的应用会全面爆发
- 跨学科研究会成为常态
- AI 研究者需要懂领域知识,领域研究者需要懂 AI
世界变了。
想要更多论文精读
订阅每周精选 —— 下一篇论文笔记直接送邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。