训练
知识蒸馏 (Knowledge Distillation)
一种模型压缩技术:较小的「学生」模型学习模仿较大「教师」模型的输出概率分布,从而在保持大部分精度的同时显著减小模型规模,便于在低资源设备和移动端进行推理。
知识蒸馏(knowledge distillation) 是一种模型压缩技术,让较小的「学生」网络学习模仿较大的「教师」网络的行为。学生不再仅从数据集中的硬标签学习,而是基于教师产生的 软概率分布 进行训练——这些分布携带了关于教师如何泛化的更丰富信息。
该技术由 Hinton、Vinyals 和 Dean 于 2015 年推广。典型流程:
- 大型大型语言模型(教师)在大规模查询集合上产生输出或 logits
- 较小的学生模型被训练以最小化其输出与教师输出之间的差异,通常使用「温度 softmax」来获得更平滑的分布
- 可选地与基于真实标签的传统微调相结合
蒸馏正是当今强大模型存在实用小型版本的原因——例如 DistilBERT(比 BERT 小 40%,性能保留 97%)、Llama 3.2 1B/3B、Gemma 2B,以及大量从 GPT-4 和 Claude 蒸馏出的本地模型。Apple Intelligence 和手机端的设备端模型在很大程度上依靠蒸馏,将大模型能力压入几 GB 的 RAM。
其局限在于:学生很少能在边缘案例和复杂推理上追平教师,且质量高度依赖用于传递的查询的多样性。