知识蒸馏 (Knowledge Distillation)

知识蒸馏（knowledge distillation） 是一种模型压缩技术，让较小的「学生」网络学习模仿较大的「教师」网络的行为。学生不再仅从数据集中的硬标签学习，而是基于教师产生的 软概率分布 进行训练——这些分布携带了关于教师如何泛化的更丰富信息。

该技术由 Hinton、Vinyals 和 Dean 于 2015 年推广。典型流程：

大型大型语言模型（教师）在大规模查询集合上产生输出或 logits
较小的学生模型被训练以最小化其输出与教师输出之间的差异，通常使用「温度 softmax」来获得更平滑的分布
可选地与基于真实标签的传统微调相结合

蒸馏正是当今强大模型存在实用小型版本的原因——例如 DistilBERT（比 BERT 小 40%，性能保留 97%）、Llama 3.2 1B/3B、Gemma 2B，以及大量从 GPT-4 和 Claude 蒸馏出的本地模型。Apple Intelligence 和手机端的设备端模型在很大程度上依靠蒸馏，将大模型能力压入几 GB 的 RAM。

其局限在于：学生很少能在边缘案例和复杂推理上追平教师，且质量高度依赖用于传递的查询的多样性。

来源

另见