Treniranje
Distilacija znanja
Tehnika kompresije gdje manji student model uči oponašati izlaze većeg učitelj modela, čime se smanjuje veličina uz zadržavanje točnosti.
Distilacija znanja (knowledge distillation) je tehnika kompresije modela u kojoj manja “studentska” mreža uči oponašati ponašanje veće “učiteljske” mreže. Umjesto da student uči samo iz tvrdih oznaka u skupu podataka, on se trenira na mekim distribucijama vjerojatnosti koje učitelj proizvodi — to nosi mnogo bogatiju informaciju o tome kako učitelj generalizira.
Tehniku su 2015. popularizirali Hinton, Vinyals i Dean. Tipični postupak:
- Veliki veliki jezični model (učitelj) generira izlaze ili logitse na velikom skupu upita
- Manji student trenira se da minimizira razliku između svojih izlaza i učiteljevih, često uz “temperature softmax” za glatkiju distribuciju
- Po želji se kombinira s klasičnim finim podešavanjem na pravim oznakama
Distilacija je razlog zašto danas postoje praktične male verzije moćnih modela — npr. DistilBERT (40% manji od BERT-a uz 97% performansi), Llama 3.2 1B/3B, Gemma 2B, te brojne lokalne distilacije iz GPT-4 i Claudea. Apple Intelligence i on-device modeli na mobitelima u velikoj mjeri se oslanjaju na distilaciju da bi velike sposobnosti smjestili u nekoliko gigabajta RAM-a.
Granica je u tome što student rijetko dosegne učitelja na rubnim slučajevima i složenom rezoniranju, a kvaliteta jako ovisi o raznolikosti upita korištenih za prijenos.