视频生成:从 Sora 到现代视频 AI
Sora、Runway Gen-3、Veo、Kling……2024-2026 视频生成爆发。这一篇讲技术原理 + 工程细节 + 商业格局。
L5-02 我们讲了 Diffusion 数学。 这一篇专门讲视频生成——从单帧扩展到时间维度。
2024-2026 年视频 AI 爆发—— Sora / Runway Gen-3 / Veo / Kling / Pika 等模型让”文字 → 1 分钟高清视频”成为可能。 这是 AIGC 革命的下一站。
视频生成的难度
为什么视频比图像难得多?
1. 维度爆炸
- 单图:(H, W, 3) → ~50 万像素
- 1 分钟 30 fps 1080p 视频:(1800, 1080, 1920, 3) → ~110 亿像素
- 20000× 数据量
2. 时间一致性
帧 1 是只白猫—— 帧 100 应该仍然是同一只白猫—— 不能突然变色或消失。
这种”对象持续性”是物理常识——AI 学起来困难。
3. 运动 / 物理
- 物体抛出去要落下(重力)
- 水流要符合流体力学
- 衣服飘动要符合材料学
- 等等
模型需要隐式学物理—— 不是简单”复制粘贴帧”。
4. 长依赖
10 秒视频 300 帧—— 第 300 帧要和第 1 帧”对齐”:
- 同一角色
- 一致光照
- 连贯故事
Transformer attention 处理 300 帧的”全局一致” 极贵。
Sora 的核心创新
1. 时空 Patches
L5-01 提过—— Sora 把视频切成 4D 时空 patches:
视频 (T × H × W × 3)
↓ 切成时空 patches (1帧 + 16×16 像素 块)
"时空 token" 序列
↓
Transformer 像处理文字一样处理
每个 patch 既有空间信息也有时间信息—— Transformer 在时空中”统一注意”。
2. DiT(Diffusion Transformer)
不是 U-Net—— 是 Transformer 做扩散:
噪声视频 + 时间步 t + 文本 prompt
↓
DiT (Transformer)
↓
预测噪声
↓
去噪一步
DiT 的优势:
- 可以 scale up(参数大模型更受益)
- 灵活处理任意分辨率 + 长度
- 借鉴 LLM 训练经验
3. 多尺度训练
Sora 训练数据混合:
- 短 / 长视频
- 横屏 / 竖屏
- 4K / 480p
- 不同帧率
不固定输入格式 —— 让模型学到”灵活性”。
“World Model” 假说
OpenAI 报告里反复强调:
“Sora 是世界模拟器的早期版本(emergent world simulator)”
证据:
- 物理一致性涌现
- 多视角理解
- 长时一致性
- 简单因果关系
学术界争议—— 有人认为 Sora 真的”理解” 物理; 有人认为只是高级的”插值”。
无论如何—— Sora 推动了 “视频生成 → AGI” 的讨论。
主流视频模型对比
2026 现状:
| 模型 | 厂商 | 最长 | 质量 | 特点 |
|---|---|---|---|---|
| Sora | OpenAI | 60s | 顶级 | 物理一致性最强 |
| Veo 2 | 2 分钟 | 高 | YouTube 集成 | |
| Runway Gen-3 | Runway | 30s | 高 | 商用成熟,电影行业最爱 |
| Kling | 快手 | 2 分钟 | 高 | 国内领先 |
| Pika 2.0 | Pika | 16s | 中高 | 易用,社交向 |
| Hunyuan Video | 腾讯 | 5s | 中 | 开源(13B) |
| CogVideoX | 智谱 | 6s | 中 | 开源 |
| Open-Sora | HPC AI | 4s | 中 | 完全开源复现 |
闭源 vs 开源——差距 6-12 个月。
工程挑战
视频生成的实战难题:
1. 计算成本
生成 1 分钟视频:
- 显存:A100 80GB 起,常需多 GPU
- 时间:Sora 估约 1-5 分钟生成 1 分钟视频
- 成本:单次约 $0.5-2 美元
视频 API 比图像 API 贵 100×。
2. Prompt Engineering
视频 prompt 比图像 prompt 复杂得多:
图像 prompt: "a cat on a windowsill, watercolor style"
视频 prompt:
"A serene scene of an orange tabby cat sitting on a wooden windowsill,
gently grooming its fur. Soft golden hour light streams in through
the slightly fogged glass. The camera slowly dollies in over 5 seconds,
ending in a close-up of the cat's content expression. The cat blinks
slowly, peaceful and unhurried. Watercolor aesthetic, gentle palette,
subtle paper texture visible."
需要描述:
- 主体 + 动作
- 相机运动
- 光照变化
- 时长节奏
- 风格
视频导演 / Prompt Engineer 成新职业。
3. 控制性
让 Sora 生成”我儿子的样子的虚拟人”—— 几乎不可能。
视频模型缺乏:
- Image-to-Video(部分有但难精确控制)
- 角色一致性(多个视频用同一人)
- 物理操控(细节调整)
这是视频 AI 离”实际制片”还远的原因。
4. 版权与道德
视频 AI 的特殊风险:
- 大量训练用视频(YouTube 等)—— 版权?
- 名人深度伪造(更逼真)
- 政治 misinformation
- 性 / 暴力内容
各家都加水印 + 审核 —— 但深度伪造防御仍未解决。
应用场景
1. 内容创作
- 视频博客 / 社媒短视频
- 广告 / 营销
- 个人 vlog 后期
- AI 生成的 stock 视频
降低视频成本 100×—— 普通人能做以前电视台才能做的。
2. 电影 / 电视
- Storyboarding(剧本可视化)
- VFX / 后期
- Stock footage
- 早期试拍
好莱坞 2023 罢工的核心议题之一—— 演员、编剧、剪辑都担心被取代。
3. 教育
- AI 生成教学视频
- 历史场景重现
- 科学概念可视化
- 多语言版本(同时生成多个语言)
4. 游戏
- 过场动画
- NPC 行为
- 程序生成场景
- 个性化故事
5. 培训 / 模拟
- 医疗模拟(手术演练)
- 飞行 / 驾驶模拟
- 工业安全培训
用代码
用 API(最简)
# OpenAI Sora API(假设 API)
from openai import OpenAI
client = OpenAI()
response = client.videos.generate(
model="sora",
prompt="A cat sitting on a windowsill, watching rain. Cinematic, slow camera dolly.",
duration=10, # seconds
resolution="1080p",
)
video_url = response.url
用开源(自建)
# Hunyuan Video / CogVideoX
from diffusers import HunyuanVideoPipeline
pipe = HunyuanVideoPipeline.from_pretrained(
"tencent/HunyuanVideo",
torch_dtype=torch.bfloat16,
).to("cuda")
video = pipe(
prompt="A peaceful waterfall in a forest",
num_frames=64,
height=720,
width=1280,
).videos[0]
# 保存
export_to_video(video, "output.mp4")
开源视频生成需要 8+ GPU H100—— 不是消费级硬件能跑。
未来 2-3 年
预测:
1. 质量 + 时长继续上
- 2026: 60s 高清
- 2027-2028: 5-10 分钟连贯故事
- 2029-2030: 完整短片(30 分钟+)
2. 控制 / 一致性突破
角色一致 + 物理控制 + 编辑能力—— 这是离”实用”的关键。
3. 实时生成
现在生成 60s 要等 5 分钟—— 未来要实时(用于游戏 / VR):
- 渲染 60fps 视频在 1/60 秒内
- 需要算力 100× 现有
- 可能 2027-2030 实现
4. 多模态融合
文本 + 图 + 音频 + 3D + 视频——统一生成。 GPT-5 / Claude 5 级别可能就是这样。
5. 大众化工具
类似 ChatGPT 之于文字—— 视频生成 也会有”普通人用的 ChatGPT”。 Pika 等已经在探索。
视频生成 vs 图像生成 vs 文字生成:
| 模态 | 大众化时机 | 当前水平 |
|---|---|---|
| 文字 | 2022 (ChatGPT) | 接近成熟 |
| 图像 | 2022-2023 (Midjourney / SD) | 接近成熟 |
| 视频 | 2024-2026 | 早期 |
| 3D | 2026-2028 | 起步 |
视频是当前最热的 AIGC 方向—— 应用潜力可能比文字 + 图像加起来还大。
但工程挑战也最大 —— 还需要 2-3 年才能真正成熟。
下一篇推荐:L5-07 3D 生成 或 L5-08 AI for Science。
读到这里说明你认真在学 🎯
订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。