知识蒸馏可视化 · 大模型怎么"教"小模型

输入句子（看下一个词预测）

蒸馏温度 (T) 3.0

T=1: 硬标签（只看 argmax）— 学生学不到细节
T=3-5: 软分布（最佳）— 保留概率信息，学生学到"细微差别"
T=20+: 过软，所有词概率接近，信息丢失

🦅 Teacher

大模型（70B）

原始概率

🎯 Soft Targets

蒸馏目标

T=3 软化

🐦 Student

小模型（7B）

学习后

❌ 没蒸馏（普通训练）

学生只看 argmax (硬标签)

普通训练时学生只看一个"对的"答案（如"好"）—— 不知道 "不错"、"糟"、"冷" 等也是合理候选—— 学不到大模型的"细微判断"。

学生模型参数

老师的 1/10

蒸馏后保留能力

~95%

vs 老师

推理速度

10×

比老师快

🧠

为什么用"软"标签

老师认为 "好" 80% + "不错" 15% + "糟" 3% + ...

这种 "**软分布**" 携带丰富信息： "好"和"不错"语义相近、"糟"和"好"完全相反、等等。 学生学这个分布——比只学"好"是对答案学得多得多。

📐

蒸馏损失函数

L = α · CE(student, hard_label)
  + (1-α) · KL(student/T, teacher/T) · T²

组合两个目标： 硬标签的交叉熵（让学生答对）+ 软分布的 KL 散度（让学生模仿老师"细微差别"）。

📝 演示说明： 此处概率分布为模拟。真实蒸馏通常用大量训练数据 + 多个 epoch。实战案例：DistilBERT（97% BERT 性能，40% 参数）、distil-whisper（95% 性能，速度 6×）、Phi-3（用 GPT-4 合成数据"间接蒸馏"）。详见 L4-12 LLM 成本优化 + L7-04 量化。

Knowledge Distillation：大模型怎么"教"小模型

为什么用"软"标签

蒸馏损失函数