L5 第 4 篇 🐣 难度 🕒 8 分钟

Whisper：让 AI 听懂 99 种语言

OpenAI 开源的 Whisper 是当下最强语音识别。手机录音转文字、会议纪要、字幕生成——背后几乎都是它。

阿

阿莱

2026/8/2

L5-01 我们提到 Whisper 是开源语音识别 SOTA。这一篇详细讲它怎么工作 + 为什么这么强。

ASR 是什么

ASR（Automatic Speech Recognition，语音识别）：

把语音转成文字。

应用场景：

手机语音输入
会议纪要
视频字幕
客服转写
语音助手（Siri / 小爱 / Alexa 的前半部分）

ASR 是非常老的研究方向—— 深度学习之前，工业界用 HMM + GMM，准确率有限。

Whisper 之前的 ASR

2017-2020 年的主流方法：

监督学习

收集”语音 + 文字”对（人工标注，昂贵）
训一个 Seq2Seq 模型（通常 LSTM/Transformer）

问题：

标注数据极贵（每小时几十美元）
噪声鲁棒性差（音乐、背景嘈杂会崩）
多语言切换难

自监督学习

Wav2Vec、HuBERT：先 self-supervised 预训练
再微调到 ASR

进步明显，但仍然受标注数据限制。

Whisper 的范式

OpenAI 2022 年发布 Whisper—— 核心：放弃自监督路线，直接 supervised + 暴力规模。

训练数据

68 万小时音频 + 文字对——从互联网爬取。

Whisper 训练数据 = 网上能找到的所有"音频+字幕"内容
   ↓
- YouTube 视频 + 字幕
- 播客 + transcripts
- 教育视频 + 字幕
- 新闻 + transcripts
- 30% 多语言（非英文）

数据量是之前 SOTA 的 10 倍——这是 Whisper 强的核心原因。

数据”脏”

不是清洗过的”干净 ASR 数据”—— 而是真实互联网音频。包含：

背景噪声
多个说话人
口音
字幕错误

但模型反而更鲁棒——见过 messy data，部署时也能处理 messy reality。

架构

简单的 Transformer Encoder-Decoder：

音频波形 (16kHz)
   ↓ 短时傅里叶变换 (STFT)
Spectrogram (频谱图)
   ↓ Conv 1D + GELU
   ↓ Transformer Encoder × N 层
   音频 features (encoded)
   ↓
Transformer Decoder（自回归生成文字）
   ↓
"Hello, this is a transcription."

没什么花哨—— 经典 Seq2Seq + Attention，靠数据规模取胜。

多任务训练

Whisper 不只是 ASR——同时训了：

ASR（语音 → 文字）
Translation（X 语言语音 → 英文）
Language ID（检测语言）
Voice Activity Detection（有人说话 vs 静音）
Timestamping（每句话的时间戳）

所有任务共享同一个模型——多任务训练让效果更好。

模型规格

OpenAI 发布了 5 种规格：

模型	参数	显存	速度	用途
tiny	39M	1 GB	最快	手机端
base	74M	1 GB	快	实时
small	244M	2 GB	中	平衡
medium	769M	5 GB	慢	高质量
large-v3	1.55B	10 GB	最慢	SOTA

Large-v3 是目前公开 ASR 的 SOTA—— 英文 WER（错误率）< 5%，接近人类水平。

99 种语言

Whisper 训练数据里有 99 种语言—— 它都能识别。

但效果不均：

英文 / 中文 / 西班牙 / 法 / 德：极好（数据多）
日韩：好（数据中）
小语种（如冰岛语、斯瓦希里语）：能用但准确率明显下降
方言：仍然弱

这是数据决定一切的体现—— 模型对哪种语言强，取决于训练数据里该语言占多少。

“为什么开源”

OpenAI 一般不开源（GPT-4 闭源）—— 为什么 Whisper 开源？

公认的几个原因：

ASR 商业价值小（GPT 才是金矿）
Whisper 训练成本相对小（几百万美元）
巨大的研究 / PR 价值
推动行业发展，对生态有利

结果：Whisper 几乎统治了开源 ASR 市场—— Hugging Face 上 Whisper 是下载量最多的 ASR 模型。

Whisper 的工程影响

1. 字幕生成革命

之前需要人工字幕——几小时人工。现在：Whisper 5 分钟搞定，准确率 95%+。

YouTube 自动字幕大幅改进——内部据传也用 Whisper 衍生品。

2. 会议纪要

Zoom、Teams、腾讯会议—— 全部内置 Whisper 或同类技术。 1 小时会议 → 2 分钟出转写 + 摘要。

3. 播客世界

之前播客内容不可搜索—— 现在 Whisper 把音频变文字，全文搜索可能。 Spotify、Apple Podcasts 都接入。

4. 创作者工具

视频博主用 Whisper 自动生成字幕—— 节省 80% 后期时间。

5. 语音助手

Siri、Alexa、Google Assistant 的”听懂用户说什么”—— 很多公司直接用 Whisper 替代了自家旧模型。

怎么用

用 OpenAI 库

pip install openai-whisper

import whisper

model = whisper.load_model("large-v3")
result = model.transcribe("audio.mp3")
print(result["text"])

# 多语言 + 翻译到英文
result = model.transcribe("zh_audio.mp3", task="translate")
print(result["text"])  # 中文音频 → 英文文字

用 Hugging Face

from transformers import pipeline

pipe = pipeline("automatic-speech-recognition", model="openai/whisper-large-v3")
result = pipe("audio.mp3")
print(result["text"])

用 faster-whisper（加速版）

pip install faster-whisper

from faster_whisper import WhisperModel

model = WhisperModel("large-v3", device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", beam_size=5)
for seg in segments:
    print(f"[{seg.start:.2f}s -> {seg.end:.2f}s] {seg.text}")

faster-whisper 比官方版快 4 倍——生产环境推荐。

Whisper 的局限

1. 不能区分说话人

Whisper 输出单一文字流—— 不知道”谁说的”。

需要 说话人分离（Speaker Diarization） 工具配合（如 pyannote.audio）。

2. 标点不完美

转写”我去了北京然后吃了饭”—— Whisper 可能输出”我去了北京然后吃了饭” 没逗号。

需要后处理（用 LLM 加标点）。

3. 实时延迟

Whisper 默认 30 秒一窗—— 不适合实时流式。 streaming 版本（WhisperX, distil-whisper）改善了这点。

4. 专业术语

医学、法律、地名等专业内容—— 准确率下降。需要微调或 prompt（Whisper 支持 initial_prompt）。

5. 唱歌 / 喊话

Whisper 主要训练在”正常说话”—— 唱歌 / 大叫 / 私语效果差。

后续发展

Whisper v3（2023）

OpenAI 更新版—— 多语言准确率全面提升。

distil-whisper（2023 HuggingFace）

知识蒸馏—— 小 6 倍，快 6 倍，性能损失 < 1%。生产环境首选。

Whisper-large-v3-turbo（2024）

进一步优化—— 比 large-v3 快 8 倍，质量接近。

MMS（Meta 2023）

Meta 的多语言语音模型—— 1107 种语言（比 Whisper 多 10 倍）。但单语言质量略低于 Whisper。

SeamlessM4T（Meta 2023）

直接做音频翻译：中文音频 → 英文音频。基于类似思路。

一些反思

”Whisper 让我意识到 OpenAI 不只是 LLM 公司”

Whisper 证明 OpenAI 在多模态、ASR、音频都有顶尖能力—— GPT 只是冰山一角。

“大规模 supervised 数据仍然有效”

很多人以为”自监督是未来”—— Whisper 提醒：在 supervised 数据丰富的场景，supervised 仍然最强。

不同范式适合不同问题。

“开源对生态的价值”

Whisper 开源后—— 开源 ASR 工具暴增，整个生态繁荣。 也让 OpenAI 商业品牌大幅提升。

战略性开源 vs 商业闭源——AI 公司的平衡哲学。

🚧 3 个常见坑

⚠️ 实战避坑

坑 1：中文识别准确率虚高 Whisper 中文在新闻播音场景准，方言 / 口语 / 噪声环境差——别迷信 WER benchmark。

坑 2：Hallucination 风险 Whisper 长音频静音段会编造内容——必须做 VAD 切段，每段 30s 以内。

坑 3：不调 prompt 浪费上下文 Whisper 支持 initial_prompt——把「专有名词列表」放进去能显著降低术语错误。

🔗 被以下 1 篇文章引用

L5-05 TTS 语音合成：从拼接到神经合成

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。