📄 论文精读 🏆 必读经典 · 2022 · OpenAI 2022

Robust Speech Recognition via Large-Scale Weak Supervision (Whisper)

Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever

arXiv:2212.04356 →

📖 如果你只读一段，读这段

OpenAI 用 68 万小时弱监督音频训出最强 ASR。开源后统治整个开源语音识别市场。99 种语言通吃。

#Whisper#ASR#语音#开源#必读

为什么这篇论文重要

2022 年 OpenAI 发布 Whisper—— 第一次让”任意语种、任意场景的语音识别”工作得这么好。

之前的 ASR 系统：

需要清晰录音
单一语种 / 单一口音
背景噪声敏感
训练需要昂贵专业标注

Whisper：

任意场景：手机、视频、电话、播客、嘈杂环境
99 种语言
无需专业标注
完全开源

Whisper 几乎一夜之间让”语音转文字”变成消费品。字幕生成、会议纪要、视频博客后期——全都被它改变。

核心方法：弱监督的规模化

Whisper 的关键 insight：

不要追求”干净的标注数据”——直接用互联网现成的”音频 + 字幕”对训练。

虽然字幕不完美—— 但只要量足够大，模型反而学到鲁棒性。

训练数据

68 万小时音频 + 文字对—— 约 10× 之前 SOTA 的数据量。

来源：

YouTube 视频 + 字幕
播客 + transcripts
在线讲座 + 字幕
多语言新闻
教育视频

数据”脏”：

字幕可能错
多说话人
背景音乐
嘈杂环境
各种口音

但海量补救质量 —— 这是 Whisper 的核心赌注。

架构

简单——经典 Transformer Encoder-Decoder：

音频波形（16kHz）
   ↓ 短时傅里叶变换
Spectrogram (mel-spectrogram)
   ↓ 1D 卷积下采样
   ↓ Transformer Encoder
"audio features"
   ↓ cross attention
   ↓ Transformer Decoder（自回归生成）
   ↓
"Hello, this is a transcription."

没什么创新——靠数据规模 + 训练技巧。

多任务训练

Whisper 不只做 ASR——同时训 5 个任务：

ASR（语音 → 文字）
Translation（X 语言语音 → 英文）
Language ID（检测语言）
Voice Activity Detection（是否在说话）
Timestamping（每句的时间戳）

所有任务共享一个模型——通过 special token 控制：

<|startoftranscript|>
<|en|>                  # 语言代码
<|transcribe|>          # 任务类型（vs <|translate|>）
<|notimestamps|>        # 是否要时间戳
... 转写文字 ...
<|endoftranscript|>

多任务训练让模型更通用 + 互相促进。

模型规格

OpenAI 发布了 5 种规格：

模型	参数	显存	速度	用途
tiny	39M	1GB	最快	手机端
base	74M	1GB	快	实时
small	244M	2GB	中	平衡
medium	769M	5GB	慢	高质量
large-v3	1.55B	10GB	最慢	SOTA

全部开源 MIT License——可商用。

性能

在多个 ASR benchmark 上

英文 WER（错误率，越低越好）：

数据集	之前 SOTA	Whisper
LibriSpeech clean	1.4%	2.5%
LibriSpeech other	2.7%	4.9%
Common Voice	6.3%	9.0%
TED-LIUM	7.5%	4.0%

注意：Whisper 在某些”干净”数据集上不如专门训练的模型—— 但在”野外”数据上远超——这正是它的优势。

鲁棒性优势

在嘈杂、口音、各种环境上：

专门 ASR：训练集准，野外崩
Whisper：训练数据脏，野外稳

这是”弱监督 + 大规模” 范式的胜利—— 类似 LLM 的胜利逻辑。

多语言能力

99 种语言 都能识别—— 但效果不均匀：

语言	WER 范围
英文 / 中文 / 西班牙 / 法 / 德	5-10%（极好）
日韩 / 意大利 / 葡萄牙	10-15%（好）
印地语 / 阿拉伯 / 越南	15-25%（可用）
小语种（斯瓦希里 / 冰岛等）	25-50%（勉强）

取决于训练数据里该语言的占比。

“Translation” 功能（独有）

Whisper 能直接把任何语言的音频翻译成英文—— 不是”先 ASR 再翻译”—— 端到端音频→英文。

result = model.transcribe("japanese_audio.mp3", task="translate")
# 输出：直接是英文文字

这是其它 ASR 系统没有的—— 训练时混合了”任意语言音频 + 英文字幕”对。

“为什么开源”

之前提过—— OpenAI 一般闭源（GPT 系列）。 为什么开源 Whisper？

公认原因：

ASR 商业价值小（vs LLM 巨大）
训练成本低（百万级，不是上亿）
PR 价值大（树立”开放”形象）
生态贡献（推动行业）
没什么”安全风险” 可顾虑

结果：几乎统治了开源 ASR 市场—— HuggingFace 上 Whisper 下载量第一。

论文之后

Whisper v2 / v3

每代准确率提升 + 多语言增强。 v3 在 2023 年 10 月发布——多语言上有显著提升。

Whisper-large-v3-turbo（2024）

OpenAI 的优化版—— 比 v3 快 8 倍，质量接近。

社区生态

faster-whisper（基于 CTranslate2）—— 4× 加速
distil-whisper（HuggingFace 蒸馏版）—— 50% 大小，95% 性能
WhisperX（增加 forced alignment + speaker diarization）
whisper.cpp —— C++ 实现，CPU 友好

工业应用

Zoom / Teams 转录
YouTube 自动字幕（部分）
Spotify 播客 transcripts
TikTok 字幕
几乎所有 AI 视频工具

Whisper 的局限

1. 不区分说话人

输出单一文字流——不知道”谁说的”。需要 Speaker Diarization 工具配合（pyannote.audio）。

2. 标点不完美

“我今天去了北京然后吃了饭” 可能没逗号。需后处理（用 LLM 加标点）。

3. 实时延迟

默认 30 秒窗口——不适合实时流式。 WhisperX、streaming-whisper 等改善了。

4. 唱歌 / 私语

主要训练在”正常说话”—— 唱歌、低声、喊话效果差。

5. 专业术语

医学、法律、地名等—— 准确率下降。可以用 initial_prompt 提示。

后续语音 AI 的发展

Meta SeamlessM4T (2023)

直接做音频翻译：中文音频 → 英文音频。基于 Whisper 类思路扩展。

Meta MMS（2023）

1107 种语言——比 Whisper 多 10 倍。单语言质量略低，但覆盖更广。

GPT-4o Audio Mode（2024）

OpenAI 把 Whisper 类技术集成到 GPT-4o—— 端到端语音对话（不再 ASR → LLM → TTS 三步）。

Spirit LM / Voicebox 等

下一代 audio 多模态—— 原生处理音频 token + 文字 token。

Whisper 的范式（弱监督 + 大规模）正被推广到所有音频任务。

用代码

最简单（OpenAI 库）

import whisper

model = whisper.load_model("large-v3")
result = model.transcribe("audio.mp3")
print(result["text"])

# 多语言 + 翻译
result = model.transcribe("zh_audio.mp3", task="translate")
print(result["text"])  # 中文音频 → 英文文字

生产推荐（faster-whisper）

from faster_whisper import WhisperModel

model = WhisperModel("large-v3", device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", beam_size=5)
for seg in segments:
    print(f"[{seg.start:.2f}s -> {seg.end:.2f}s] {seg.text}")

4× 比 OpenAI 原版快——同等质量。

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。