HelloAI
L5 第 6 篇 🐥 难度 🕒 13 分钟

视频生成:从 Sora 到现代视频 AI

Sora、Runway Gen-3、Veo、Kling……2024-2026 视频生成爆发。这一篇讲技术原理 + 工程细节 + 商业格局。

阿莱
2026/8/29

L5-02 我们讲了 Diffusion 数学。 这一篇专门讲视频生成——从单帧扩展到时间维度

2024-2026 年视频 AI 爆发—— Sora / Runway Gen-3 / Veo / Kling / Pika 等模型让”文字 → 1 分钟高清视频”成为可能。 这是 AIGC 革命的下一站。

视频生成的难度

为什么视频比图像难得多?

1. 维度爆炸

  • 单图:(H, W, 3) → ~50 万像素
  • 1 分钟 30 fps 1080p 视频:(1800, 1080, 1920, 3) → ~110 亿像素
  • 20000× 数据量

2. 时间一致性

帧 1 是只白猫—— 帧 100 应该仍然是同一只白猫—— 不能突然变色或消失

这种”对象持续性”是物理常识——AI 学起来困难。

3. 运动 / 物理

  • 物体抛出去要落下(重力)
  • 水流要符合流体力学
  • 衣服飘动要符合材料学
  • 等等

模型需要隐式学物理—— 不是简单”复制粘贴帧”。

4. 长依赖

10 秒视频 300 帧—— 第 300 帧要和第 1 帧”对齐”

  • 同一角色
  • 一致光照
  • 连贯故事

Transformer attention 处理 300 帧的”全局一致” 极贵。

Sora 的核心创新

1. 时空 Patches

L5-01 提过—— Sora 把视频切成 4D 时空 patches

视频 (T × H × W × 3)
   ↓ 切成时空 patches (1帧 + 16×16 像素 块)
"时空 token" 序列

Transformer 像处理文字一样处理

每个 patch 既有空间信息也有时间信息—— Transformer 在时空中”统一注意”

2. DiT(Diffusion Transformer)

不是 U-Net—— 是 Transformer 做扩散:

噪声视频 + 时间步 t + 文本 prompt

DiT (Transformer)

预测噪声

去噪一步

DiT 的优势:

  • 可以 scale up(参数大模型更受益)
  • 灵活处理任意分辨率 + 长度
  • 借鉴 LLM 训练经验

3. 多尺度训练

Sora 训练数据混合:

  • 短 / 长视频
  • 横屏 / 竖屏
  • 4K / 480p
  • 不同帧率

不固定输入格式 —— 让模型学到”灵活性”。

“World Model” 假说

OpenAI 报告里反复强调

“Sora 是世界模拟器的早期版本(emergent world simulator)”

证据:

  • 物理一致性涌现
  • 多视角理解
  • 长时一致性
  • 简单因果关系

学术界争议—— 有人认为 Sora 真的”理解” 物理; 有人认为只是高级的”插值”。

无论如何—— Sora 推动了 “视频生成 → AGI” 的讨论。

主流视频模型对比

2026 现状:

模型厂商最长质量特点
SoraOpenAI60s顶级物理一致性最强
Veo 2Google2 分钟YouTube 集成
Runway Gen-3Runway30s商用成熟,电影行业最爱
Kling快手2 分钟国内领先
Pika 2.0Pika16s中高易用,社交向
Hunyuan Video腾讯5s开源(13B)
CogVideoX智谱6s开源
Open-SoraHPC AI4s完全开源复现

闭源 vs 开源——差距 6-12 个月。

工程挑战

视频生成的实战难题:

1. 计算成本

生成 1 分钟视频:

  • 显存:A100 80GB 起,常需多 GPU
  • 时间:Sora 估约 1-5 分钟生成 1 分钟视频
  • 成本:单次约 $0.5-2 美元

视频 API 比图像 API 贵 100×

2. Prompt Engineering

视频 prompt 比图像 prompt 复杂得多

图像 prompt: "a cat on a windowsill, watercolor style"

视频 prompt:
"A serene scene of an orange tabby cat sitting on a wooden windowsill,
gently grooming its fur. Soft golden hour light streams in through
the slightly fogged glass. The camera slowly dollies in over 5 seconds,
ending in a close-up of the cat's content expression. The cat blinks
slowly, peaceful and unhurried. Watercolor aesthetic, gentle palette,
subtle paper texture visible."

需要描述:

  • 主体 + 动作
  • 相机运动
  • 光照变化
  • 时长节奏
  • 风格

视频导演 / Prompt Engineer 成新职业。

3. 控制性

让 Sora 生成”我儿子的样子的虚拟人”—— 几乎不可能

视频模型缺乏:

  • Image-to-Video(部分有但难精确控制)
  • 角色一致性(多个视频用同一人)
  • 物理操控(细节调整)

这是视频 AI 离”实际制片”还远的原因。

4. 版权与道德

视频 AI 的特殊风险:

  • 大量训练用视频(YouTube 等)—— 版权?
  • 名人深度伪造(更逼真)
  • 政治 misinformation
  • 性 / 暴力内容

各家都加水印 + 审核 —— 但深度伪造防御仍未解决

应用场景

1. 内容创作

  • 视频博客 / 社媒短视频
  • 广告 / 营销
  • 个人 vlog 后期
  • AI 生成的 stock 视频

降低视频成本 100×—— 普通人能做以前电视台才能做的。

2. 电影 / 电视

  • Storyboarding(剧本可视化)
  • VFX / 后期
  • Stock footage
  • 早期试拍

好莱坞 2023 罢工的核心议题之一—— 演员、编剧、剪辑都担心被取代。

3. 教育

  • AI 生成教学视频
  • 历史场景重现
  • 科学概念可视化
  • 多语言版本(同时生成多个语言)

4. 游戏

  • 过场动画
  • NPC 行为
  • 程序生成场景
  • 个性化故事

5. 培训 / 模拟

  • 医疗模拟(手术演练)
  • 飞行 / 驾驶模拟
  • 工业安全培训

用代码

用 API(最简)

# OpenAI Sora API(假设 API)
from openai import OpenAI
client = OpenAI()

response = client.videos.generate(
    model="sora",
    prompt="A cat sitting on a windowsill, watching rain. Cinematic, slow camera dolly.",
    duration=10,  # seconds
    resolution="1080p",
)

video_url = response.url

用开源(自建)

# Hunyuan Video / CogVideoX
from diffusers import HunyuanVideoPipeline

pipe = HunyuanVideoPipeline.from_pretrained(
    "tencent/HunyuanVideo",
    torch_dtype=torch.bfloat16,
).to("cuda")

video = pipe(
    prompt="A peaceful waterfall in a forest",
    num_frames=64,
    height=720,
    width=1280,
).videos[0]

# 保存
export_to_video(video, "output.mp4")

开源视频生成需要 8+ GPU H100—— 不是消费级硬件能跑。

未来 2-3 年

预测:

1. 质量 + 时长继续上

  • 2026: 60s 高清
  • 2027-2028: 5-10 分钟连贯故事
  • 2029-2030: 完整短片(30 分钟+)

2. 控制 / 一致性突破

角色一致 + 物理控制 + 编辑能力—— 这是离”实用”的关键

3. 实时生成

现在生成 60s 要等 5 分钟—— 未来要实时(用于游戏 / VR):

  • 渲染 60fps 视频在 1/60 秒内
  • 需要算力 100× 现有
  • 可能 2027-2030 实现

4. 多模态融合

文本 + 图 + 音频 + 3D + 视频——统一生成。 GPT-5 / Claude 5 级别可能就是这样。

5. 大众化工具

类似 ChatGPT 之于文字—— 视频生成 也会有”普通人用的 ChatGPT”。 Pika 等已经在探索。

💡 一个观察

视频生成 vs 图像生成 vs 文字生成:

模态大众化时机当前水平
文字2022 (ChatGPT)接近成熟
图像2022-2023 (Midjourney / SD)接近成熟
视频2024-2026早期
3D2026-2028起步

视频是当前最热的 AIGC 方向—— 应用潜力可能比文字 + 图像加起来还大。

工程挑战也最大 —— 还需要 2-3 年才能真正成熟。

下一篇推荐:L5-07 3D 生成L5-08 AI for Science

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。