HelloAI
📄 论文精读 ⭐ 本周精选 · 2024 · OpenAI 2024

Video generation models as world simulators (Sora)

Tim Brooks, Bill Peebles, Connor Holmes, et al.
TL;DR
OpenAI 的视频生成模型 Sora——把视频切成"时空 patch"用 Transformer 做扩散。1 分钟高质量视频成为可能,"AI 世界模拟器"露端倪。
#Sora#视频生成#Diffusion#Transformer#前沿

为什么这篇报告重要

2024 年 2 月 15 日 OpenAI 发布了 Sora 的技术报告—— 视频生成质量直接跨越式提升

之前的视频 AI:

  • 5-10 秒,分辨率低
  • 物体一会儿出现一会儿消失
  • 不能严格按 prompt

Sora:

  • 60 秒高清视频
  • 物理一致性好
  • 严格响应文本提示

当时所有人都震惊——这不是渐进改善,这是质变

Sora 的两个核心创新

技术报告没公开训练细节——但披露了架构层面的关键思路。

创新 1:视频 = 时空 Patches

视频是 4D 数据:

VRT×H×W×CV \in \mathbb{R}^{T \times H \times W \times C}

T 是时间帧、H 高、W 宽、C 通道。

Sora 把视频同时在空间和时间维度切 patch

视频 (60 frames × 256 × 256 × 3)

3D patches (each ~ 2 frames × 16 × 16)

flatten 成一长串 "时空 token"

喂给 Transformer

这是把 ViT 思想从图像扩展到视频。 每个 patch 是一段时空”砖块”—— Transformer 学到的是砖块之间的时空关系

创新 2:用 Diffusion + Transformer

不是 U-Net(Stable Diffusion 的核心架构)—— 而是 DiT(Diffusion Transformer)

具体来说:

  • 用 Transformer 作为去噪网络
  • 时空 token 作为输入
  • 文本 embedding 通过 cross-attention 注入

Sora = ViT + Diffusion + Video——把多个范式融合。

多尺度训练

Sora 的另一个秘密: 不限制视频长度、分辨率、宽高比

训练时:

  • 长视频 + 短视频混合
  • 横屏 + 竖屏混合
  • 4K + 480p 混合

这让 Sora 能直接生成任意分辨率、任意长度的视频—— 不需要固定 16:9 等格式

之前的视频 AI 几乎都是固定大小训练。Sora 的灵活性是工程突破。

一些”涌现”能力

随着规模增大,Sora 涌现出意外能力:

1. 物理一致性

物体不会随机出现 / 消失。 反射、光影、运动惯性都”合理”。

早期模型一只猫拐角后变成狗——Sora 不会。

2. 长时间一致性

60 秒视频里,同一个人/物保持外观。 角色、场景的”身份”被持久建模。

3. 多角度

同一场景的多个相机角度—— Sora 学到了 3D 空间。

4. 模拟物理

水、布料、烟、火——这些复杂物理现象被模拟得相当真实。

OpenAI 在报告里说:“Sora 是世界模拟器的早期版本(“emergent world simulator”)”。 这个说法引起广泛讨论——是营销还是真理?

“世界模拟器”假说

OpenAI 的核心论点: Sora 这种模型在大规模下会成为”通用世界模型”—— 理解物理、因果、3D 空间。

证据:

  • 物理一致性涌现
  • 3D 视角的隐式理解
  • 时间因果(事情按”现实”的顺序发生)

反对:

  • Sora 仍然有大量幻觉
  • 物理理解是浅层的(“看起来对”≠“真正懂”)
  • 没有显式因果推理

2026 年答案:还在争论。Sora 2、Gen-3、Veo 都在朝”世界模型”方向迭代。

几个限制

报告里也诚实列出 Sora 的弱点:

1. 复杂动作

让 Sora 生成”一个人打字”—— 手指动作可能错乱、键盘可能变形

2. 因果错误

“一个人吃饼干后饼干消失”—— Sora 可能”饼干越吃越多”或”凭空消失”。

3. 长视频一致性

60 秒高质量——但 5 分钟开始出问题。 角色可能变身。

4. 多对象关系

5 个孩子同时玩耍——Sora 可能搞不清谁是谁。

Sora 的”训练数据”

报告没披露训练数据—— 但社区分析推测:

  • 互联网视频几千万小时
  • YouTube 可能是主要来源(未确认)
  • 合成视频(游戏引擎渲染)补充
  • 必然有大量版权问题

2024-2025 年,多家媒体起诉 OpenAI 用版权视频训练—— Sora 在中心。

计算成本

Sora 的训练成本估计几亿美元—— 推理也极贵:

  • 1 分钟视频生成需要几十秒到几分钟
  • 推理算力是 GPT-4 文生图的几十倍
  • 单次成本 $0.5-2

这是为什么 OpenAI 一直没”完全开放” Sora—— 算力成本撑不起百万用户。

论文之后的发展

同期竞品

模型厂商特点
SoraOpenAI长视频 + 高质量
Runway Gen-3Runway商用产品成熟
Veo 2GoogleYouTube 数据 + Gemini 集成
Kling快手中国领先
PikaPika Labs易用,社交向
Luma Dream MachineLuma开源友好

视频生成在 2024-2026 年快速进步——质量、长度、可控性都在迭代。

应用爆发

  • 电影 / 广告:用 AI 视频做 storyboard 甚至最终成片
  • 社媒:TikTok / Instagram 大量 AI 短视频
  • 教育:AI 生成教学视频
  • 游戏:AI 生成过场动画

视频内容的成本正在塌缩 100 倍—— 影响范围比文本/图像 AI 更大。

一些有意思的争议

”AI 视频会让真实视频成为奢侈品”

未来可能:

  • 大部分商业视频是 AI 生成(便宜)
  • “真实拍摄”的视频成为奢侈品(“这是真的”= 卖点)

类似今天的”AI 写”vs”人工原创”。

“Deep fake 的终极形态”

Sora 级别的真实度—— 深度伪造的危险性大幅上升。 2025-2026 各国都在立法要求 AI 视频明确标识。

“电影行业会被颠覆吗”

好莱坞 2023 罢工的核心议题之一就是 AI。 演员、编剧、剪辑、特效—— 所有岗位都将被影响。

不是”消失”,是”重塑”——但具体怎么重塑还在演变。

推荐配套阅读

  • HelloAI: L5-01 多模态总览 + L5-02 Diffusion 数学
  • HelloAI: Diffusion 去噪可视化
  • Sora 技术报告(OpenAI 官方)
  • DiT 论文(Diffusion Transformer,Bill Peebles 2023)
  • Stable Video Diffusion 论文
💡 一个观察

2017 年 Transformer 出现时——没人想到 AI 能”生成 1 分钟高质量视频”。 2024 年 Sora 出现——好像理所当然。

AI 进步的速度让所有”5 年规划”显得幼稚—— 我们活在一个6 个月 = 1 个时代的世界。

📬

想要更多论文精读

订阅每周精选 —— 下一篇论文笔记直接送邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。