HelloAI
📄 论文精读 🏆 必读经典 · 2022 · OpenAI 2022

Robust Speech Recognition via Large-Scale Weak Supervision (Whisper)

Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever
TL;DR
OpenAI 用 68 万小时弱监督音频训出最强 ASR。开源后统治整个开源语音识别市场。99 种语言通吃。
#Whisper#ASR#语音#开源#必读

为什么这篇论文重要

2022 年 OpenAI 发布 Whisper—— 第一次让”任意语种、任意场景的语音识别”工作得这么好

之前的 ASR 系统:

  • 需要清晰录音
  • 单一语种 / 单一口音
  • 背景噪声敏感
  • 训练需要昂贵专业标注

Whisper:

  • 任意场景:手机、视频、电话、播客、嘈杂环境
  • 99 种语言
  • 无需专业标注
  • 完全开源

Whisper 几乎一夜之间让”语音转文字”变成消费品。 字幕生成、会议纪要、视频博客后期——全都被它改变。

核心方法:弱监督的规模化

Whisper 的关键 insight:

不要追求”干净的标注数据”——直接用互联网现成的”音频 + 字幕”对训练

虽然字幕不完美—— 但只要量足够大,模型反而学到鲁棒性

训练数据

68 万小时音频 + 文字对—— 约 10× 之前 SOTA 的数据量

来源:

  • YouTube 视频 + 字幕
  • 播客 + transcripts
  • 在线讲座 + 字幕
  • 多语言新闻
  • 教育视频

数据”脏”:

  • 字幕可能错
  • 多说话人
  • 背景音乐
  • 嘈杂环境
  • 各种口音

但海量补救质量 —— 这是 Whisper 的核心赌注。

架构

简单——经典 Transformer Encoder-Decoder:

音频波形(16kHz)
   ↓ 短时傅里叶变换
Spectrogram (mel-spectrogram)
   ↓ 1D 卷积下采样
   ↓ Transformer Encoder
"audio features"
   ↓ cross attention
   ↓ Transformer Decoder(自回归生成)

"Hello, this is a transcription."

没什么创新——靠数据规模 + 训练技巧。

多任务训练

Whisper 不只做 ASR——同时训 5 个任务

  1. ASR(语音 → 文字)
  2. Translation(X 语言语音 → 英文)
  3. Language ID(检测语言)
  4. Voice Activity Detection(是否在说话)
  5. Timestamping(每句的时间戳)

所有任务共享一个模型——通过 special token 控制:

<|startoftranscript|>
<|en|>                  # 语言代码
<|transcribe|>          # 任务类型(vs <|translate|>)
<|notimestamps|>        # 是否要时间戳
... 转写文字 ...
<|endoftranscript|>

多任务训练让模型更通用 + 互相促进

模型规格

OpenAI 发布了 5 种规格:

模型参数显存速度用途
tiny39M1GB最快手机端
base74M1GB实时
small244M2GB平衡
medium769M5GB高质量
large-v31.55B10GB最慢SOTA

全部开源 MIT License——可商用。

性能

在多个 ASR benchmark 上

英文 WER(错误率,越低越好):

数据集之前 SOTAWhisper
LibriSpeech clean1.4%2.5%
LibriSpeech other2.7%4.9%
Common Voice6.3%9.0%
TED-LIUM7.5%4.0%

注意:Whisper 在某些”干净”数据集上不如专门训练的模型—— 但在”野外”数据上远超——这正是它的优势。

鲁棒性优势

在嘈杂、口音、各种环境上:

  • 专门 ASR:训练集准,野外崩
  • Whisper:训练数据脏,野外稳

这是”弱监督 + 大规模” 范式的胜利—— 类似 LLM 的胜利逻辑。

多语言能力

99 种语言 都能识别—— 但效果不均匀

语言WER 范围
英文 / 中文 / 西班牙 / 法 / 德5-10%(极好)
日韩 / 意大利 / 葡萄牙10-15%(好)
印地语 / 阿拉伯 / 越南15-25%(可用)
小语种(斯瓦希里 / 冰岛等)25-50%(勉强)

取决于训练数据里该语言的占比

“Translation” 功能(独有)

Whisper 能直接把任何语言的音频翻译成英文—— 不是”先 ASR 再翻译”—— 端到端音频→英文

result = model.transcribe("japanese_audio.mp3", task="translate")
# 输出:直接是英文文字

这是其它 ASR 系统没有的—— 训练时混合了”任意语言音频 + 英文字幕”对。

“为什么开源”

之前提过—— OpenAI 一般闭源(GPT 系列)。 为什么开源 Whisper

公认原因:

  1. ASR 商业价值小(vs LLM 巨大)
  2. 训练成本低(百万级,不是上亿)
  3. PR 价值大(树立”开放”形象)
  4. 生态贡献(推动行业)
  5. 没什么”安全风险” 可顾虑

结果:几乎统治了开源 ASR 市场—— HuggingFace 上 Whisper 下载量第一。

论文之后

Whisper v2 / v3

每代准确率提升 + 多语言增强。 v3 在 2023 年 10 月发布——多语言上有显著提升。

Whisper-large-v3-turbo(2024)

OpenAI 的优化版—— 比 v3 快 8 倍,质量接近。

社区生态

  • faster-whisper(基于 CTranslate2)—— 4× 加速
  • distil-whisper(HuggingFace 蒸馏版)—— 50% 大小,95% 性能
  • WhisperX(增加 forced alignment + speaker diarization)
  • whisper.cpp —— C++ 实现,CPU 友好

工业应用

  • Zoom / Teams 转录
  • YouTube 自动字幕(部分)
  • Spotify 播客 transcripts
  • TikTok 字幕
  • 几乎所有 AI 视频工具

Whisper 的局限

1. 不区分说话人

输出单一文字流——不知道”谁说的”。 需要 Speaker Diarization 工具配合(pyannote.audio)。

2. 标点不完美

“我今天去了北京然后吃了饭” 可能没逗号。 需后处理(用 LLM 加标点)。

3. 实时延迟

默认 30 秒窗口——不适合实时流式。 WhisperX、streaming-whisper 等改善了。

4. 唱歌 / 私语

主要训练在”正常说话”—— 唱歌、低声、喊话效果差。

5. 专业术语

医学、法律、地名等—— 准确率下降。 可以用 initial_prompt 提示。

后续语音 AI 的发展

Meta SeamlessM4T (2023)

直接做音频翻译:中文音频 → 英文音频。 基于 Whisper 类思路扩展。

Meta MMS(2023)

1107 种语言——比 Whisper 多 10 倍。 单语言质量略低,但覆盖更广。

GPT-4o Audio Mode(2024)

OpenAI 把 Whisper 类技术集成到 GPT-4o—— 端到端语音对话(不再 ASR → LLM → TTS 三步)。

Spirit LM / Voicebox 等

下一代 audio 多模态—— 原生处理音频 token + 文字 token。

Whisper 的范式(弱监督 + 大规模)正被推广到所有音频任务

用代码

最简单(OpenAI 库)

import whisper

model = whisper.load_model("large-v3")
result = model.transcribe("audio.mp3")
print(result["text"])

# 多语言 + 翻译
result = model.transcribe("zh_audio.mp3", task="translate")
print(result["text"])  # 中文音频 → 英文文字

生产推荐(faster-whisper)

from faster_whisper import WhisperModel

model = WhisperModel("large-v3", device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", beam_size=5)
for seg in segments:
    print(f"[{seg.start:.2f}s -> {seg.end:.2f}s] {seg.text}")

4× 比 OpenAI 原版快——同等质量。

推荐配套阅读

  • HelloAI: L5-04 Whisper 详解 + L5-01 多模态总览
  • Whisper 论文 —— OpenAI 原版
  • faster-whisper GitHub —— 生产用
  • distil-whisper —— 蒸馏版
💡 一个商业洞察

Whisper 让”语音转文字”从昂贵 API变成免费工具—— 开启了一整个新行业

  • AI 视频剪辑(Descript、Veed.io)
  • AI 会议纪要(Otter.ai、Fireflies)
  • AI 字幕生成
  • AI 播客分析

开源能催生比闭源更大的市场—— 因为它降低了进入门槛。 这是开源价值的最好证明。

📬

想要更多论文精读

订阅每周精选 —— 下一篇论文笔记直接送邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。