Phi-3、DistilBERT、distil-whisper —— 都是蒸馏出来的小模型。 关键洞察:让小模型学大模型的"软"概率分布,而不只是"硬"标签——能学到大模型的"细微差别"。
普通训练时学生只看一个"对的"答案(如"好")—— 不知道 "不错"、"糟"、"冷" 等也是合理候选—— 学不到大模型的"细微判断"。
老师认为 "好" 80% + "不错" 15% + "糟" 3% + ...
这种 "**软分布**" 携带丰富信息: "好"和"不错"语义相近、"糟"和"好"完全相反、等等。 学生学这个分布——比只学"好"是对答案 学得多得多。
L = α · CE(student, hard_label) + (1-α) · KL(student/T, teacher/T) · T²
组合两个目标: 硬标签的交叉熵(让学生答对)+ 软分布的 KL 散度(让学生模仿老师"细微差别")。