Robust Speech Recognition via Large-Scale Weak Supervision (Whisper)
为什么这篇论文重要
2022 年 OpenAI 发布 Whisper—— 第一次让”任意语种、任意场景的语音识别”工作得这么好。
之前的 ASR 系统:
- 需要清晰录音
- 单一语种 / 单一口音
- 背景噪声敏感
- 训练需要昂贵专业标注
Whisper:
- 任意场景:手机、视频、电话、播客、嘈杂环境
- 99 种语言
- 无需专业标注
- 完全开源
Whisper 几乎一夜之间让”语音转文字”变成消费品。 字幕生成、会议纪要、视频博客后期——全都被它改变。
核心方法:弱监督的规模化
Whisper 的关键 insight:
不要追求”干净的标注数据”——直接用互联网现成的”音频 + 字幕”对训练。
虽然字幕不完美—— 但只要量足够大,模型反而学到鲁棒性。
训练数据
68 万小时音频 + 文字对—— 约 10× 之前 SOTA 的数据量。
来源:
- YouTube 视频 + 字幕
- 播客 + transcripts
- 在线讲座 + 字幕
- 多语言新闻
- 教育视频
数据”脏”:
- 字幕可能错
- 多说话人
- 背景音乐
- 嘈杂环境
- 各种口音
但海量补救质量 —— 这是 Whisper 的核心赌注。
架构
简单——经典 Transformer Encoder-Decoder:
音频波形(16kHz)
↓ 短时傅里叶变换
Spectrogram (mel-spectrogram)
↓ 1D 卷积下采样
↓ Transformer Encoder
"audio features"
↓ cross attention
↓ Transformer Decoder(自回归生成)
↓
"Hello, this is a transcription."
没什么创新——靠数据规模 + 训练技巧。
多任务训练
Whisper 不只做 ASR——同时训 5 个任务:
- ASR(语音 → 文字)
- Translation(X 语言语音 → 英文)
- Language ID(检测语言)
- Voice Activity Detection(是否在说话)
- Timestamping(每句的时间戳)
所有任务共享一个模型——通过 special token 控制:
<|startoftranscript|>
<|en|> # 语言代码
<|transcribe|> # 任务类型(vs <|translate|>)
<|notimestamps|> # 是否要时间戳
... 转写文字 ...
<|endoftranscript|>
多任务训练让模型更通用 + 互相促进。
模型规格
OpenAI 发布了 5 种规格:
| 模型 | 参数 | 显存 | 速度 | 用途 |
|---|---|---|---|---|
| tiny | 39M | 1GB | 最快 | 手机端 |
| base | 74M | 1GB | 快 | 实时 |
| small | 244M | 2GB | 中 | 平衡 |
| medium | 769M | 5GB | 慢 | 高质量 |
| large-v3 | 1.55B | 10GB | 最慢 | SOTA |
全部开源 MIT License——可商用。
性能
在多个 ASR benchmark 上
英文 WER(错误率,越低越好):
| 数据集 | 之前 SOTA | Whisper |
|---|---|---|
| LibriSpeech clean | 1.4% | 2.5% |
| LibriSpeech other | 2.7% | 4.9% |
| Common Voice | 6.3% | 9.0% |
| TED-LIUM | 7.5% | 4.0% |
注意:Whisper 在某些”干净”数据集上不如专门训练的模型—— 但在”野外”数据上远超——这正是它的优势。
鲁棒性优势
在嘈杂、口音、各种环境上:
- 专门 ASR:训练集准,野外崩
- Whisper:训练数据脏,野外稳
这是”弱监督 + 大规模” 范式的胜利—— 类似 LLM 的胜利逻辑。
多语言能力
99 种语言 都能识别—— 但效果不均匀:
| 语言 | WER 范围 |
|---|---|
| 英文 / 中文 / 西班牙 / 法 / 德 | 5-10%(极好) |
| 日韩 / 意大利 / 葡萄牙 | 10-15%(好) |
| 印地语 / 阿拉伯 / 越南 | 15-25%(可用) |
| 小语种(斯瓦希里 / 冰岛等) | 25-50%(勉强) |
取决于训练数据里该语言的占比。
“Translation” 功能(独有)
Whisper 能直接把任何语言的音频翻译成英文—— 不是”先 ASR 再翻译”—— 端到端音频→英文。
result = model.transcribe("japanese_audio.mp3", task="translate")
# 输出:直接是英文文字
这是其它 ASR 系统没有的—— 训练时混合了”任意语言音频 + 英文字幕”对。
“为什么开源”
之前提过—— OpenAI 一般闭源(GPT 系列)。 为什么开源 Whisper?
公认原因:
- ASR 商业价值小(vs LLM 巨大)
- 训练成本低(百万级,不是上亿)
- PR 价值大(树立”开放”形象)
- 生态贡献(推动行业)
- 没什么”安全风险” 可顾虑
结果:几乎统治了开源 ASR 市场—— HuggingFace 上 Whisper 下载量第一。
论文之后
Whisper v2 / v3
每代准确率提升 + 多语言增强。 v3 在 2023 年 10 月发布——多语言上有显著提升。
Whisper-large-v3-turbo(2024)
OpenAI 的优化版—— 比 v3 快 8 倍,质量接近。
社区生态
- faster-whisper(基于 CTranslate2)—— 4× 加速
- distil-whisper(HuggingFace 蒸馏版)—— 50% 大小,95% 性能
- WhisperX(增加 forced alignment + speaker diarization)
- whisper.cpp —— C++ 实现,CPU 友好
工业应用
- Zoom / Teams 转录
- YouTube 自动字幕(部分)
- Spotify 播客 transcripts
- TikTok 字幕
- 几乎所有 AI 视频工具
Whisper 的局限
1. 不区分说话人
输出单一文字流——不知道”谁说的”。 需要 Speaker Diarization 工具配合(pyannote.audio)。
2. 标点不完美
“我今天去了北京然后吃了饭” 可能没逗号。 需后处理(用 LLM 加标点)。
3. 实时延迟
默认 30 秒窗口——不适合实时流式。 WhisperX、streaming-whisper 等改善了。
4. 唱歌 / 私语
主要训练在”正常说话”—— 唱歌、低声、喊话效果差。
5. 专业术语
医学、法律、地名等——
准确率下降。
可以用 initial_prompt 提示。
后续语音 AI 的发展
Meta SeamlessM4T (2023)
直接做音频翻译:中文音频 → 英文音频。 基于 Whisper 类思路扩展。
Meta MMS(2023)
1107 种语言——比 Whisper 多 10 倍。 单语言质量略低,但覆盖更广。
GPT-4o Audio Mode(2024)
OpenAI 把 Whisper 类技术集成到 GPT-4o—— 端到端语音对话(不再 ASR → LLM → TTS 三步)。
Spirit LM / Voicebox 等
下一代 audio 多模态—— 原生处理音频 token + 文字 token。
Whisper 的范式(弱监督 + 大规模)正被推广到所有音频任务。
用代码
最简单(OpenAI 库)
import whisper
model = whisper.load_model("large-v3")
result = model.transcribe("audio.mp3")
print(result["text"])
# 多语言 + 翻译
result = model.transcribe("zh_audio.mp3", task="translate")
print(result["text"]) # 中文音频 → 英文文字
生产推荐(faster-whisper)
from faster_whisper import WhisperModel
model = WhisperModel("large-v3", device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", beam_size=5)
for seg in segments:
print(f"[{seg.start:.2f}s -> {seg.end:.2f}s] {seg.text}")
4× 比 OpenAI 原版快——同等质量。
推荐配套阅读
- HelloAI: L5-04 Whisper 详解 + L5-01 多模态总览
- Whisper 论文 —— OpenAI 原版
- faster-whisper GitHub —— 生产用
- distil-whisper —— 蒸馏版
Whisper 让”语音转文字”从昂贵 API变成免费工具—— 开启了一整个新行业:
- AI 视频剪辑(Descript、Veed.io)
- AI 会议纪要(Otter.ai、Fireflies)
- AI 字幕生成
- AI 播客分析
开源能催生比闭源更大的市场—— 因为它降低了进入门槛。 这是开源价值的最好证明。
想要更多论文精读
订阅每周精选 —— 下一篇论文笔记直接送邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。