L5 第 6 篇 🐥 难度 🕒 13 分钟

视频生成：从 Sora 到现代视频 AI

Sora、Runway Gen-3、Veo、Kling……2024-2026 视频生成爆发。这一篇讲技术原理 + 工程细节 + 商业格局。

阿

阿莱

2026/8/29

L5-02 我们讲了 Diffusion 数学。 这一篇专门讲视频生成——从单帧扩展到时间维度。

2024-2026 年视频 AI 爆发—— Sora / Runway Gen-3 / Veo / Kling / Pika 等模型让”文字 → 1 分钟高清视频”成为可能。这是 AIGC 革命的下一站。

视频生成的难度

为什么视频比图像难得多？

1. 维度爆炸

单图：(H, W, 3) → ~50 万像素
1 分钟 30 fps 1080p 视频：(1800, 1080, 1920, 3) → ~110 亿像素
20000× 数据量

2. 时间一致性

帧 1 是只白猫—— 帧 100 应该仍然是同一只白猫—— 不能突然变色或消失。

这种”对象持续性”是物理常识——AI 学起来困难。

3. 运动 / 物理

物体抛出去要落下（重力）
水流要符合流体力学
衣服飘动要符合材料学
等等

模型需要隐式学物理—— 不是简单”复制粘贴帧”。

4. 长依赖

10 秒视频 300 帧—— 第 300 帧要和第 1 帧”对齐”：

同一角色
一致光照
连贯故事

Transformer attention 处理 300 帧的”全局一致” 极贵。

Sora 的核心创新

1. 时空 Patches

L5-01 提过—— Sora 把视频切成 4D 时空 patches：

视频 (T × H × W × 3)
   ↓ 切成时空 patches (1帧 + 16×16 像素 块)
"时空 token" 序列
   ↓
Transformer 像处理文字一样处理

每个 patch 既有空间信息也有时间信息—— Transformer 在时空中”统一注意”。

2. DiT（Diffusion Transformer）

不是 U-Net—— 是 Transformer 做扩散：

噪声视频 + 时间步 t + 文本 prompt
   ↓
DiT (Transformer)
   ↓
预测噪声
   ↓
去噪一步

DiT 的优势：

可以 scale up（参数大模型更受益）
灵活处理任意分辨率 + 长度
借鉴 LLM 训练经验

3. 多尺度训练

Sora 训练数据混合：

短 / 长视频
横屏 / 竖屏
4K / 480p
不同帧率

不固定输入格式 —— 让模型学到”灵活性”。

“World Model” 假说

OpenAI 报告里反复强调：

“Sora 是世界模拟器的早期版本（emergent world simulator）”

证据：

物理一致性涌现
多视角理解
长时一致性
简单因果关系

学术界争议—— 有人认为 Sora 真的”理解” 物理；有人认为只是高级的”插值”。

无论如何—— Sora 推动了 “视频生成 → AGI” 的讨论。

主流视频模型对比

2026 现状：

模型	厂商	最长	质量	特点
Sora	OpenAI	60s	顶级	物理一致性最强
Veo 2	Google	2 分钟	高	YouTube 集成
Runway Gen-3	Runway	30s	高	商用成熟，电影行业最爱
Kling	快手	2 分钟	高	国内领先
Pika 2.0	Pika	16s	中高	易用，社交向
Hunyuan Video	腾讯	5s	中	开源（13B）
CogVideoX	智谱	6s	中	开源
Open-Sora	HPC AI	4s	中	完全开源复现

闭源 vs 开源——差距 6-12 个月。

工程挑战

视频生成的实战难题：

1. 计算成本

生成 1 分钟视频：

显存：A100 80GB 起，常需多 GPU
时间：Sora 估约 1-5 分钟生成 1 分钟视频
成本：单次约 $0.5-2 美元

视频 API 比图像 API 贵 100×。

2. Prompt Engineering

视频 prompt 比图像 prompt 复杂得多：

图像 prompt: "a cat on a windowsill, watercolor style"

视频 prompt:
"A serene scene of an orange tabby cat sitting on a wooden windowsill,
gently grooming its fur. Soft golden hour light streams in through
the slightly fogged glass. The camera slowly dollies in over 5 seconds,
ending in a close-up of the cat's content expression. The cat blinks
slowly, peaceful and unhurried. Watercolor aesthetic, gentle palette,
subtle paper texture visible."

需要描述：

主体 + 动作
相机运动
光照变化
时长节奏
风格

视频导演 / Prompt Engineer 成新职业。

3. 控制性

让 Sora 生成”我儿子的样子的虚拟人”—— 几乎不可能。

视频模型缺乏：

Image-to-Video（部分有但难精确控制）
角色一致性（多个视频用同一人）
物理操控（细节调整）

这是视频 AI 离”实际制片”还远的原因。

4. 版权与道德

视频 AI 的特殊风险：

大量训练用视频（YouTube 等）—— 版权？
名人深度伪造（更逼真）
政治 misinformation
性 / 暴力内容

各家都加水印 + 审核 —— 但深度伪造防御仍未解决。

应用场景

1. 内容创作

视频博客 / 社媒短视频
广告 / 营销
个人 vlog 后期
AI 生成的 stock 视频

降低视频成本 100×—— 普通人能做以前电视台才能做的。

2. 电影 / 电视

Storyboarding（剧本可视化）
VFX / 后期
Stock footage
早期试拍

好莱坞 2023 罢工的核心议题之一—— 演员、编剧、剪辑都担心被取代。

3. 教育

AI 生成教学视频
历史场景重现
科学概念可视化
多语言版本（同时生成多个语言）

4. 游戏

过场动画
NPC 行为
程序生成场景
个性化故事

5. 培训 / 模拟

医疗模拟（手术演练）
飞行 / 驾驶模拟
工业安全培训

用代码

用 API（最简）

# OpenAI Sora API（假设 API）
from openai import OpenAI
client = OpenAI()

response = client.videos.generate(
    model="sora",
    prompt="A cat sitting on a windowsill, watching rain. Cinematic, slow camera dolly.",
    duration=10,  # seconds
    resolution="1080p",
)

video_url = response.url

用开源（自建）

# Hunyuan Video / CogVideoX
from diffusers import HunyuanVideoPipeline

pipe = HunyuanVideoPipeline.from_pretrained(
    "tencent/HunyuanVideo",
    torch_dtype=torch.bfloat16,
).to("cuda")

video = pipe(
    prompt="A peaceful waterfall in a forest",
    num_frames=64,
    height=720,
    width=1280,
).videos[0]

# 保存
export_to_video(video, "output.mp4")

开源视频生成需要 8+ GPU H100—— 不是消费级硬件能跑。

未来 2-3 年

预测：

1. 质量 + 时长继续上

2026: 60s 高清
2027-2028: 5-10 分钟连贯故事
2029-2030: 完整短片（30 分钟+）

2. 控制 / 一致性突破

角色一致 + 物理控制 + 编辑能力—— 这是离”实用”的关键。

3. 实时生成

现在生成 60s 要等 5 分钟—— 未来要实时（用于游戏 / VR）：

渲染 60fps 视频在 1/60 秒内
需要算力 100× 现有
可能 2027-2030 实现

4. 多模态融合

文本 + 图 + 音频 + 3D + 视频——统一生成。 GPT-5 / Claude 5 级别可能就是这样。

5. 大众化工具

类似 ChatGPT 之于文字—— 视频生成也会有”普通人用的 ChatGPT”。 Pika 等已经在探索。

💡 一个观察

视频生成 vs 图像生成 vs 文字生成：

模态	大众化时机	当前水平
文字	2022 (ChatGPT)	接近成熟
图像	2022-2023 (Midjourney / SD)	接近成熟
视频	2024-2026	早期
3D	2026-2028	起步

视频是当前最热的 AIGC 方向—— 应用潜力可能比文字 + 图像加起来还大。

但工程挑战也最大 —— 还需要 2-3 年才能真正成熟。

下一篇推荐：L5-07 3D 生成 或 L5-08 AI for Science。

🚧 3 个常见坑

⚠️ 实战避坑

坑 1：用文生视频做剪辑工具 Sora / Veo / Kling 适合「从零生成」——不适合「对已有视频做精修」，那是 Runway 等专用工具的活。

坑 2：以为长视频 = 短视频 N 倍 时序一致性 / 角色一致性问题随时长指数级增长——目前业界 60s+ 都还是研究问题。

坑 3：不考虑成本 1 分钟视频可能花 $5-50——批量生成前算总成本，远超图像生成的预期。

🆕 2025–2026 现状更新

🔬 本节最新动态

Sora 2（OpenAI · 2025-09-30 发布）

时长 10–25 秒，同步音频（对话 + 音效 + 环境音）首次集成
物理一致性显著提升（篮球未进会反弹、流体动力学接近真实）
角色 / 物体注入：用一段参考视频就能把人物 / 动物 / 物体放到任意 Sora 生成的场景
多镜头跨场景保持世界状态（“steerability”）
独立 iOS App + sora.com；Sora 产品已于 2026-04-26 停止运营

主要竞品（2026 量级）

Google Veo 3：原生 4K + 音轨，画面真实度领先
快手 Kling 2.x：多镜头叙事 + 真实人物运动，国内首选
字节 Seedance：多模态参考输入 + 物理一致性
Runway Gen-4：电影业最爱，Director Mode 运镜

仍未解决的难点

60s+ 的时序 / 角色一致性仍是开放研究问题
复杂动作（杂技、舞蹈、精细操作）失败率高
文字 / 标识渲染仍不稳定

来源：Sora 2 — OpenAI · Sora 2 System Card · Wikipedia: Sora

🔗 被以下 1 篇文章引用

L5-07 3D 生成：NeRF / Gaussian Splatting / 文本到 3D

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。