Treniranje

Distilacija znanja

Tehnika kompresije gdje manji student model uči oponašati izlaze većeg učitelj modela, čime se smanjuje veličina uz zadržavanje točnosti.

Distilacija znanja (knowledge distillation) je tehnika kompresije modela u kojoj manja “studentska” mreža uči oponašati ponašanje veće “učiteljske” mreže. Umjesto da student uči samo iz tvrdih oznaka u skupu podataka, on se trenira na mekim distribucijama vjerojatnosti koje učitelj proizvodi — to nosi mnogo bogatiju informaciju o tome kako učitelj generalizira.

Tehniku su 2015. popularizirali Hinton, Vinyals i Dean. Tipični postupak:

  • Veliki veliki jezični model (učitelj) generira izlaze ili logitse na velikom skupu upita
  • Manji student trenira se da minimizira razliku između svojih izlaza i učiteljevih, često uz “temperature softmax” za glatkiju distribuciju
  • Po želji se kombinira s klasičnim finim podešavanjem na pravim oznakama

Distilacija je razlog zašto danas postoje praktične male verzije moćnih modela — npr. DistilBERT (40% manji od BERT-a uz 97% performansi), Llama 3.2 1B/3B, Gemma 2B, te brojne lokalne distilacije iz GPT-4 i Claudea. Apple Intelligence i on-device modeli na mobitelima u velikoj mjeri se oslanjaju na distilaciju da bi velike sposobnosti smjestili u nekoliko gigabajta RAM-a.

Granica je u tome što student rijetko dosegne učitelja na rubnim slučajevima i složenom rezoniranju, a kvaliteta jako ovisi o raznolikosti upita korištenih za prijenos.

Izvori

Vidi također