训练

知识蒸馏 (Knowledge Distillation)

一种模型压缩技术:较小的「学生」模型学习模仿较大「教师」模型的输出概率分布,从而在保持大部分精度的同时显著减小模型规模,便于在低资源设备和移动端进行推理。

知识蒸馏(knowledge distillation 是一种模型压缩技术,让较小的「学生」网络学习模仿较大的「教师」网络的行为。学生不再仅从数据集中的硬标签学习,而是基于教师产生的 软概率分布 进行训练——这些分布携带了关于教师如何泛化的更丰富信息。

该技术由 Hinton、Vinyals 和 Dean 于 2015 年推广。典型流程:

  • 大型大型语言模型(教师)在大规模查询集合上产生输出或 logits
  • 较小的学生模型被训练以最小化其输出与教师输出之间的差异,通常使用「温度 softmax」来获得更平滑的分布
  • 可选地与基于真实标签的传统微调相结合

蒸馏正是当今强大模型存在实用小型版本的原因——例如 DistilBERT(比 BERT 小 40%,性能保留 97%)、Llama 3.2 1B/3B、Gemma 2B,以及大量从 GPT-4 和 Claude 蒸馏出的本地模型。Apple Intelligence 和手机端的设备端模型在很大程度上依靠蒸馏,将大模型能力压入几 GB 的 RAM。

其局限在于:学生很少能在边缘案例和复杂推理上追平教师,且质量高度依赖用于传递的查询的多样性。

来源

另见