Što je fine-tuning i zašto ga timovi rade?

Fine-tuning je dodatno treniranje pretrained modela na specifičnim podacima da nauči nove zadatke ili domene. Timovi ga rade kada žele da general-purpose LLM postane ekspert za customer support, medicinsku terminologiju, pravne dokumente ili konkretan proizvod. Problem je što proces često degradira opće znanje modela.

Fine-tuning i halucinacije: zašto se događaju i kako ih smanjiti

Q: Što znači 'interference among overlapping semantic representations'?

Model sprema srodne koncepte u sličnim dijelovima svoje interne reprezentacije. Kad ga fine-tuniraš na novoj domeni, gradijenti nehotice mijenjaju i susjedne reprezentacije — one koje su vezane za slična, ali ne identična znanja. Rezultat je da model 'zaboravi' što je znao i počinje izmišljati.

Q: Kako self-distillation SFT rješava problem?

Self-distillation znači da model uči i od novih podataka i od svog vlastitog prijašnjeg izlaza. Na taj način se regulizira output-distribution drift — distribucija odgovora ne smije se previše udaljiti od originala. Fine-tuning se tako tretira kao continual learning — učenje novog bez zaboravljanja starog.

Što novi paper otkriva?

ArXiv paper objavljen 20. travnja 2026. rasvjetljava mehanizam zbog kojeg supervised fine-tuning povećava halucinacije u velikim jezičnim modelima. Nalaz je kontraintuitivan: halucinacije ne uzrokuje ni nedovoljan kapacitet ni tzv. behavior cloning, nego specifičan fenomen nazvan interference among overlapping semantic representations.

Definicija: halucinacija u LLM kontekstu znači da model izmišlja faktički pogrešne informacije i predstavlja ih kao istinite, s istim samopouzdanjem kao ispravne činjenice.

Što je fine-tuning i zašto je toliko raširen?

Definicija: fine-tuning je proces dodatnog treniranja pretrained modela na užem, specifičnom skupu podataka, s ciljem da model savlada novi zadatak ili domenu. Koristi ga svaki ozbiljan tim koji želi LLM prilagoditi vlastitim potrebama — od customer support botova do medicinskih asistenata.

Problem je što fine-tuning često degradira opće znanje modela. Nakon što LLM “nauči” nešto novo, zaboravi dio onoga što je znao, ili — gore — počinje miješati staro i novo znanje u fantazirane tvrdnje.

Koji je mehanizam iza problema?

Autori tvrde da model ne gubi znanje zbog nedovoljnog kapaciteta (nije “pun”), niti zbog behavior cloninga (oponašanja nekog drugog modela). Pravi uzrok je suptilniji:

Preklapajuće semantičke reprezentacije. Model sprema srodne koncepte u sličnim dijelovima svog internog prostora. Kada tijekom fine-tuninga gradijenti ažuriraju težine za novu domenu, oni nehotice mijenjaju susjedne reprezentacije — one vezane za slična, ali ne identična znanja.

Metafora: ako u knjižnici premjestiš sve knjige o medicini, pomaknut ćeš i neke o biologiji jer su na istoj polici. Nije da je knjižnica premala — nego da se područja preklapaju.

Koje rješenje autori predlažu?

Glavna inovacija paper-a je self-distillation metoda za SFT (Supervised Fine-Tuning). Kako radi?

Definicija: self-distillation znači da model uči i od novih podataka i od svog vlastitog prijašnjeg izlaza. Tijekom treninga, gradijenti ne optimiziraju samo za novo znanje nego i regulariziraju output-distribution drift — distribucija odgovora ne smije se previše udaljiti od originalne.

Praktično: svaki batch treninga uključuje “podsjetnik” na ono što je model prije znao, i tako čuva staro znanje dok uči novo.

Fine-tuning kao continual learning

Autori tretiraju SFT kao problem continual learning-a — podgrane strojnog učenja koja se bavi učenjem novih zadataka bez zaboravljanja starih. Ovaj pristup otvara cijeli arsenal već dobro istraženih tehnika, uključujući elastic weight consolidation, replay buffers i parameter isolation.

Dodatno rješenje: selective freezing

Kao alternativu, autori spominju selective freezing — selektivno zamrzavanje parametara u scenarijima gdje novo znanje nije potrebno. Ako želiš naučiti model novu pravnu domenu, a ne želiš da zaboravi kako piše e-mail, zamrzneš dio mreže koji kontrolira pisanje.

Komu je to korisno?

Svakom timu koji fine-tunira LLM-ove za senzibilne domene:

Customer support — bot koji ne smije izmišljati politike povrata
Medicinski asistenti — model koji ne smije halucinirati dijagnoze
Pravni alati — sustav koji mora točno citirati propise
Financijski savjetnici — alat koji ne smije izmišljati tržišne podatke

Za sve njih, self-distillation SFT i selective freezing su konkretne tehnike koje se mogu primijeniti odmah uz minimalne izmjene postojećih trening pipeline-ova.

Zaključak

Paper daje jasan recept: tretiraj fine-tuning kao continual learning, ne kao ispočetka trening. Halucinacije nisu neizbježna posljedica — one su simptom grubog ažuriranja težina koji ne štiti postojeće znanje. Za profesionalne AI timove, ovaj nalaz prevodi problem iz “mistične pojave” u rješiv inženjerski zadatak.

Zašto fine-tuning potiče halucinacije? Interference među semantičkim reprezentacijama, a rješenje je self-distillation SFT