HelloAI ← 可视化画廊
⚙️ 系统工程 · 8 分钟

Knowledge Distillation:大模型怎么"教"小模型

Phi-3、DistilBERT、distil-whisper —— 都是蒸馏出来的小模型。 关键洞察:让小模型学大模型的"软"概率分布,而不只是"硬"标签——能学到大模型的"细微差别"。

3.0
T=1: 硬标签(只看 argmax)— 学生学不到细节
T=3-5: 软分布(最佳)— 保留概率信息,学生学到"细微差别"
T=20+: 过软,所有词概率接近,信息丢失
🦅 Teacher
大模型(70B)
原始概率
🎯 Soft Targets
蒸馏目标
T=3 软化
🐦 Student
小模型(7B)
学习后
❌ 没蒸馏(普通训练)
学生只看 argmax (硬标签)

普通训练时学生只看一个"对的"答案(如"")—— 不知道 "不错"、"糟"、"冷" 等也是合理候选—— 学不到大模型的"细微判断"

学生模型参数
7B
老师的 1/10
蒸馏后保留能力
~95%
vs 老师
推理速度
10×
比老师快
🧠

为什么用"软"标签

老师认为 "好" 80% + "不错" 15% + "糟" 3% + ...

这种 "**软分布**" 携带丰富信息: "好"和"不错"语义相近、"糟"和"好"完全相反、等等。 学生学这个分布——比只学"好"是对答案 学得多得多。

📐

蒸馏损失函数

L = α · CE(student, hard_label)
  + (1-α) · KL(student/T, teacher/T) · T²

组合两个目标: 硬标签的交叉熵(让学生答对)+ 软分布的 KL 散度(让学生模仿老师"细微差别")。

📝 演示说明: 此处概率分布为模拟。真实蒸馏通常用大量训练数据 + 多个 epoch。 实战案例:DistilBERT(97% BERT 性能,40% 参数)、distil-whisper(95% 性能,速度 6×)、Phi-3(用 GPT-4 合成数据"间接蒸馏")。 详见 L4-12 LLM 成本优化 + L7-04 量化。