📄 论文精读 ⭐ 本周精选 · 2024 · OpenAI 2024

Video generation models as world simulators (Sora)

Tim Brooks, Bill Peebles, Connor Holmes, et al.

📖 如果你只读一段，读这段

OpenAI 的视频生成模型 Sora——把视频切成"时空 patch"用 Transformer 做扩散。1 分钟高质量视频成为可能，"AI 世界模拟器"露端倪。

#Sora#视频生成#Diffusion#Transformer#前沿

为什么这篇报告重要

2024 年 2 月 15 日 OpenAI 发布了 Sora 的技术报告—— 视频生成质量直接跨越式提升。

之前的视频 AI：

5-10 秒，分辨率低
物体一会儿出现一会儿消失
不能严格按 prompt

Sora：

60 秒高清视频
物理一致性好
严格响应文本提示

当时所有人都震惊——这不是渐进改善，这是质变。

Sora 的两个核心创新

技术报告没公开训练细节——但披露了架构层面的关键思路。

创新 1：视频 = 时空 Patches

视频是 4D 数据：

V \in \mathbb{R}^{T \times H \times W \times C}

T 是时间帧、H 高、W 宽、C 通道。

Sora 把视频同时在空间和时间维度切 patch：

视频 (60 frames × 256 × 256 × 3)
   ↓
3D patches (each ~ 2 frames × 16 × 16)
   ↓
flatten 成一长串 "时空 token"
   ↓
喂给 Transformer

这是把 ViT 思想从图像扩展到视频。每个 patch 是一段时空”砖块”—— Transformer 学到的是砖块之间的时空关系。

创新 2：用 Diffusion + Transformer

不是 U-Net（Stable Diffusion 的核心架构）—— 而是 DiT（Diffusion Transformer）。

具体来说：

用 Transformer 作为去噪网络
时空 token 作为输入
文本 embedding 通过 cross-attention 注入

Sora = ViT + Diffusion + Video——把多个范式融合。

多尺度训练

Sora 的另一个秘密： 不限制视频长度、分辨率、宽高比。

训练时：

长视频 + 短视频混合
横屏 + 竖屏混合
4K + 480p 混合

这让 Sora 能直接生成任意分辨率、任意长度的视频—— 不需要固定 16:9 等格式。

之前的视频 AI 几乎都是固定大小训练。Sora 的灵活性是工程突破。

一些”涌现”能力

随着规模增大，Sora 涌现出意外能力：

1. 物理一致性

物体不会随机出现 / 消失。反射、光影、运动惯性都”合理”。

早期模型一只猫拐角后变成狗——Sora 不会。

2. 长时间一致性

60 秒视频里，同一个人/物保持外观。角色、场景的”身份”被持久建模。

3. 多角度

同一场景的多个相机角度—— Sora 学到了 3D 空间。

4. 模拟物理

水、布料、烟、火——这些复杂物理现象被模拟得相当真实。

OpenAI 在报告里说：“Sora 是世界模拟器的早期版本（“emergent world simulator”)”。这个说法引起广泛讨论——是营销还是真理？

“世界模拟器”假说

OpenAI 的核心论点： Sora 这种模型在大规模下会成为”通用世界模型”—— 理解物理、因果、3D 空间。

证据：

物理一致性涌现
3D 视角的隐式理解
时间因果（事情按”现实”的顺序发生）

反对：

Sora 仍然有大量幻觉
物理理解是浅层的（“看起来对”≠“真正懂”）
没有显式因果推理

2026 年答案：还在争论。Sora 2、Gen-3、Veo 都在朝”世界模型”方向迭代。

几个限制

报告里也诚实列出 Sora 的弱点：

1. 复杂动作

让 Sora 生成”一个人打字”—— 手指动作可能错乱、键盘可能变形。

2. 因果错误

“一个人吃饼干后饼干消失”—— Sora 可能”饼干越吃越多”或”凭空消失”。

3. 长视频一致性

60 秒高质量——但 5 分钟开始出问题。角色可能变身。

4. 多对象关系

5 个孩子同时玩耍——Sora 可能搞不清谁是谁。

Sora 的”训练数据”

报告没披露训练数据—— 但社区分析推测：

互联网视频几千万小时
YouTube 可能是主要来源（未确认）
合成视频（游戏引擎渲染）补充
必然有大量版权问题

2024-2025 年，多家媒体起诉 OpenAI 用版权视频训练—— Sora 在中心。

计算成本

Sora 的训练成本估计几亿美元—— 推理也极贵：

1 分钟视频生成需要几十秒到几分钟
推理算力是 GPT-4 文生图的几十倍
单次成本 $0.5-2

这是为什么 OpenAI 一直没”完全开放” Sora—— 算力成本撑不起百万用户。

论文之后的发展

同期竞品

模型	厂商	特点
Sora	OpenAI	长视频 + 高质量
Runway Gen-3	Runway	商用产品成熟
Veo 2	Google	YouTube 数据 + Gemini 集成
Kling	快手	中国领先
Pika	Pika Labs	易用，社交向
Luma Dream Machine	Luma	开源友好

视频生成在 2024-2026 年快速进步——质量、长度、可控性都在迭代。

应用爆发

电影 / 广告：用 AI 视频做 storyboard 甚至最终成片
社媒：TikTok / Instagram 大量 AI 短视频
教育：AI 生成教学视频
游戏：AI 生成过场动画

视频内容的成本正在塌缩 100 倍—— 影响范围比文本/图像 AI 更大。

一些有意思的争议

”AI 视频会让真实视频成为奢侈品”

未来可能：

大部分商业视频是 AI 生成（便宜）
“真实拍摄”的视频成为奢侈品（“这是真的”= 卖点）

类似今天的”AI 写”vs”人工原创”。

“Deep fake 的终极形态”

Sora 级别的真实度—— 深度伪造的危险性大幅上升。 2025-2026 各国都在立法要求 AI 视频明确标识。

“电影行业会被颠覆吗”

好莱坞 2023 罢工的核心议题之一就是 AI。 演员、编剧、剪辑、特效—— 所有岗位都将被影响。

不是”消失”，是”重塑”——但具体怎么重塑还在演变。

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。