Training
Knowledge Distillation
Kompressionstechnik, bei der ein Student-Modell die Ausgaben eines größeren Teacher-Modells nachahmt, um die Größe bei erhaltener Genauigkeit zu reduzieren.
Knowledge Distillation (Wissensdestillation) ist eine Modell-Kompressionstechnik, bei der ein kleineres „Student”-Netz lernt, das Verhalten eines größeren „Teacher”-Netzes nachzuahmen. Statt nur aus den harten Labels eines Datensatzes zu lernen, wird der Student auf den weichen Wahrscheinlichkeitsverteilungen trainiert, die der Teacher produziert — diese tragen wesentlich reichere Information darüber, wie der Teacher generalisiert.
Die Technik wurde 2015 von Hinton, Vinyals und Dean populär gemacht. Typischer Ablauf:
- Ein großes großes Sprachmodell (Teacher) erzeugt Ausgaben oder Logits auf einer großen Menge an Anfragen
- Ein kleinerer Student wird trainiert, die Differenz zwischen seinen Ausgaben und denen des Teachers zu minimieren, oft mit einer „Temperature Softmax” für eine glattere Verteilung
- Optional kombiniert mit klassischem Fine-Tuning auf den echten Labels
Distillation ist der Grund, warum es heute praktische kleine Versionen mächtiger Modelle gibt — z. B. DistilBERT (40 % kleiner als BERT bei 97 % Performance), Llama 3.2 1B/3B, Gemma 2B sowie zahlreiche lokale Distillationen aus GPT-4 und Claude. Apple Intelligence und On-Device-Modelle auf Smartphones stützen sich stark auf Distillation, um große Fähigkeiten in wenigen Gigabyte RAM unterzubringen.
Die Grenze besteht darin, dass der Student den Teacher in Randfällen und komplexem Reasoning selten erreicht und die Qualität stark von der Vielfalt der zur Übertragung genutzten Anfragen abhängt.