Video generation models as world simulators (Sora)
为什么这篇报告重要
2024 年 2 月 15 日 OpenAI 发布了 Sora 的技术报告—— 视频生成质量直接跨越式提升。
之前的视频 AI:
- 5-10 秒,分辨率低
- 物体一会儿出现一会儿消失
- 不能严格按 prompt
Sora:
- 60 秒高清视频
- 物理一致性好
- 严格响应文本提示
当时所有人都震惊——这不是渐进改善,这是质变。
Sora 的两个核心创新
技术报告没公开训练细节——但披露了架构层面的关键思路。
创新 1:视频 = 时空 Patches
视频是 4D 数据:
T 是时间帧、H 高、W 宽、C 通道。
Sora 把视频同时在空间和时间维度切 patch:
视频 (60 frames × 256 × 256 × 3)
↓
3D patches (each ~ 2 frames × 16 × 16)
↓
flatten 成一长串 "时空 token"
↓
喂给 Transformer
这是把 ViT 思想从图像扩展到视频。 每个 patch 是一段时空”砖块”—— Transformer 学到的是砖块之间的时空关系。
创新 2:用 Diffusion + Transformer
不是 U-Net(Stable Diffusion 的核心架构)—— 而是 DiT(Diffusion Transformer)。
具体来说:
- 用 Transformer 作为去噪网络
- 时空 token 作为输入
- 文本 embedding 通过 cross-attention 注入
Sora = ViT + Diffusion + Video——把多个范式融合。
多尺度训练
Sora 的另一个秘密: 不限制视频长度、分辨率、宽高比。
训练时:
- 长视频 + 短视频混合
- 横屏 + 竖屏混合
- 4K + 480p 混合
这让 Sora 能直接生成任意分辨率、任意长度的视频—— 不需要固定 16:9 等格式。
之前的视频 AI 几乎都是固定大小训练。Sora 的灵活性是工程突破。
一些”涌现”能力
随着规模增大,Sora 涌现出意外能力:
1. 物理一致性
物体不会随机出现 / 消失。 反射、光影、运动惯性都”合理”。
早期模型一只猫拐角后变成狗——Sora 不会。
2. 长时间一致性
60 秒视频里,同一个人/物保持外观。 角色、场景的”身份”被持久建模。
3. 多角度
同一场景的多个相机角度—— Sora 学到了 3D 空间。
4. 模拟物理
水、布料、烟、火——这些复杂物理现象被模拟得相当真实。
OpenAI 在报告里说:“Sora 是世界模拟器的早期版本(“emergent world simulator”)”。 这个说法引起广泛讨论——是营销还是真理?
“世界模拟器”假说
OpenAI 的核心论点: Sora 这种模型在大规模下会成为”通用世界模型”—— 理解物理、因果、3D 空间。
证据:
- 物理一致性涌现
- 3D 视角的隐式理解
- 时间因果(事情按”现实”的顺序发生)
反对:
- Sora 仍然有大量幻觉
- 物理理解是浅层的(“看起来对”≠“真正懂”)
- 没有显式因果推理
2026 年答案:还在争论。Sora 2、Gen-3、Veo 都在朝”世界模型”方向迭代。
几个限制
报告里也诚实列出 Sora 的弱点:
1. 复杂动作
让 Sora 生成”一个人打字”—— 手指动作可能错乱、键盘可能变形。
2. 因果错误
“一个人吃饼干后饼干消失”—— Sora 可能”饼干越吃越多”或”凭空消失”。
3. 长视频一致性
60 秒高质量——但 5 分钟开始出问题。 角色可能变身。
4. 多对象关系
5 个孩子同时玩耍——Sora 可能搞不清谁是谁。
Sora 的”训练数据”
报告没披露训练数据—— 但社区分析推测:
- 互联网视频几千万小时
- YouTube 可能是主要来源(未确认)
- 合成视频(游戏引擎渲染)补充
- 必然有大量版权问题
2024-2025 年,多家媒体起诉 OpenAI 用版权视频训练—— Sora 在中心。
计算成本
Sora 的训练成本估计几亿美元—— 推理也极贵:
- 1 分钟视频生成需要几十秒到几分钟
- 推理算力是 GPT-4 文生图的几十倍
- 单次成本 $0.5-2
这是为什么 OpenAI 一直没”完全开放” Sora—— 算力成本撑不起百万用户。
论文之后的发展
同期竞品
| 模型 | 厂商 | 特点 |
|---|---|---|
| Sora | OpenAI | 长视频 + 高质量 |
| Runway Gen-3 | Runway | 商用产品成熟 |
| Veo 2 | YouTube 数据 + Gemini 集成 | |
| Kling | 快手 | 中国领先 |
| Pika | Pika Labs | 易用,社交向 |
| Luma Dream Machine | Luma | 开源友好 |
视频生成在 2024-2026 年快速进步——质量、长度、可控性都在迭代。
应用爆发
- 电影 / 广告:用 AI 视频做 storyboard 甚至最终成片
- 社媒:TikTok / Instagram 大量 AI 短视频
- 教育:AI 生成教学视频
- 游戏:AI 生成过场动画
视频内容的成本正在塌缩 100 倍—— 影响范围比文本/图像 AI 更大。
一些有意思的争议
”AI 视频会让真实视频成为奢侈品”
未来可能:
- 大部分商业视频是 AI 生成(便宜)
- “真实拍摄”的视频成为奢侈品(“这是真的”= 卖点)
类似今天的”AI 写”vs”人工原创”。
“Deep fake 的终极形态”
Sora 级别的真实度—— 深度伪造的危险性大幅上升。 2025-2026 各国都在立法要求 AI 视频明确标识。
“电影行业会被颠覆吗”
好莱坞 2023 罢工的核心议题之一就是 AI。 演员、编剧、剪辑、特效—— 所有岗位都将被影响。
不是”消失”,是”重塑”——但具体怎么重塑还在演变。
推荐配套阅读
- HelloAI: L5-01 多模态总览 + L5-02 Diffusion 数学
- HelloAI: Diffusion 去噪可视化
- Sora 技术报告(OpenAI 官方)
- DiT 论文(Diffusion Transformer,Bill Peebles 2023)
- Stable Video Diffusion 论文
2017 年 Transformer 出现时——没人想到 AI 能”生成 1 分钟高质量视频”。 2024 年 Sora 出现——好像理所当然。
AI 进步的速度让所有”5 年规划”显得幼稚—— 我们活在一个6 个月 = 1 个时代的世界。
想要更多论文精读
订阅每周精选 —— 下一篇论文笔记直接送邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。