Knowledge Distillation

Knowledge Distillation (Wissensdestillation) ist eine Modell-Kompressionstechnik, bei der ein kleineres „Student”-Netz lernt, das Verhalten eines größeren „Teacher”-Netzes nachzuahmen. Statt nur aus den harten Labels eines Datensatzes zu lernen, wird der Student auf den weichen Wahrscheinlichkeitsverteilungen trainiert, die der Teacher produziert — diese tragen wesentlich reichere Information darüber, wie der Teacher generalisiert.

Die Technik wurde 2015 von Hinton, Vinyals und Dean populär gemacht. Typischer Ablauf:

Ein großes großes Sprachmodell (Teacher) erzeugt Ausgaben oder Logits auf einer großen Menge an Anfragen
Ein kleinerer Student wird trainiert, die Differenz zwischen seinen Ausgaben und denen des Teachers zu minimieren, oft mit einer „Temperature Softmax” für eine glattere Verteilung
Optional kombiniert mit klassischem Fine-Tuning auf den echten Labels

Distillation ist der Grund, warum es heute praktische kleine Versionen mächtiger Modelle gibt — z. B. DistilBERT (40 % kleiner als BERT bei 97 % Performance), Llama 3.2 1B/3B, Gemma 2B sowie zahlreiche lokale Distillationen aus GPT-4 und Claude. Apple Intelligence und On-Device-Modelle auf Smartphones stützen sich stark auf Distillation, um große Fähigkeiten in wenigen Gigabyte RAM unterzubringen.

Die Grenze besteht darin, dass der Student den Teacher in Randfällen und komplexem Reasoning selten erreicht und die Qualität stark von der Vielfalt der zur Übertragung genutzten Anfragen abhängt.

Quellen

Siehe auch