🤖 24 AI
🟢 🤖 Modeli utorak, 21. travnja 2026. · 3 min čitanja

Zašto fine-tuning potiče halucinacije? Interference među semantičkim reprezentacijama, a rješenje je self-distillation SFT

Editorialna ilustracija: Zašto fine-tuning potiče halucinacije? Interference među semantičkim reprezentacijama, a rješen

Zašto je bitno

Novi ArXiv paper otkriva da halucinacije nakon fine-tuninga ne uzrokuju ni kapacitet ni behavior cloning, nego interference među preklapajućim semantičkim reprezentacijama. Rješenje: self-distillation SFT koji regularizira output-distribution drift i tretira fine-tuning kao problem continual learninga.

Što novi paper otkriva?

ArXiv paper objavljen 20. travnja 2026. rasvjetljava mehanizam zbog kojeg supervised fine-tuning povećava halucinacije u velikim jezičnim modelima. Nalaz je kontraintuitivan: halucinacije ne uzrokuje ni nedovoljan kapacitet ni tzv. behavior cloning, nego specifičan fenomen nazvan interference among overlapping semantic representations.

Definicija: halucinacija u LLM kontekstu znači da model izmišlja faktički pogrešne informacije i predstavlja ih kao istinite, s istim samopouzdanjem kao ispravne činjenice.

Što je fine-tuning i zašto je toliko raširen?

Definicija: fine-tuning je proces dodatnog treniranja pretrained modela na užem, specifičnom skupu podataka, s ciljem da model savlada novi zadatak ili domenu. Koristi ga svaki ozbiljan tim koji želi LLM prilagoditi vlastitim potrebama — od customer support botova do medicinskih asistenata.

Problem je što fine-tuning često degradira opće znanje modela. Nakon što LLM “nauči” nešto novo, zaboravi dio onoga što je znao, ili — gore — počinje miješati staro i novo znanje u fantazirane tvrdnje.

Koji je mehanizam iza problema?

Autori tvrde da model ne gubi znanje zbog nedovoljnog kapaciteta (nije “pun”), niti zbog behavior cloninga (oponašanja nekog drugog modela). Pravi uzrok je suptilniji:

Preklapajuće semantičke reprezentacije. Model sprema srodne koncepte u sličnim dijelovima svog internog prostora. Kada tijekom fine-tuninga gradijenti ažuriraju težine za novu domenu, oni nehotice mijenjaju susjedne reprezentacije — one vezane za slična, ali ne identična znanja.

Metafora: ako u knjižnici premjestiš sve knjige o medicini, pomaknut ćeš i neke o biologiji jer su na istoj polici. Nije da je knjižnica premala — nego da se područja preklapaju.

Koje rješenje autori predlažu?

Glavna inovacija paper-a je self-distillation metoda za SFT (Supervised Fine-Tuning). Kako radi?

Definicija: self-distillation znači da model uči i od novih podataka i od svog vlastitog prijašnjeg izlaza. Tijekom treninga, gradijenti ne optimiziraju samo za novo znanje nego i regulariziraju output-distribution drift — distribucija odgovora ne smije se previše udaljiti od originalne.

Praktično: svaki batch treninga uključuje “podsjetnik” na ono što je model prije znao, i tako čuva staro znanje dok uči novo.

Fine-tuning kao continual learning

Autori tretiraju SFT kao problem continual learning-a — podgrane strojnog učenja koja se bavi učenjem novih zadataka bez zaboravljanja starih. Ovaj pristup otvara cijeli arsenal već dobro istraženih tehnika, uključujući elastic weight consolidation, replay buffers i parameter isolation.

Dodatno rješenje: selective freezing

Kao alternativu, autori spominju selective freezing — selektivno zamrzavanje parametara u scenarijima gdje novo znanje nije potrebno. Ako želiš naučiti model novu pravnu domenu, a ne želiš da zaboravi kako piše e-mail, zamrzneš dio mreže koji kontrolira pisanje.

Komu je to korisno?

Svakom timu koji fine-tunira LLM-ove za senzibilne domene:

  • Customer support — bot koji ne smije izmišljati politike povrata
  • Medicinski asistenti — model koji ne smije halucinirati dijagnoze
  • Pravni alati — sustav koji mora točno citirati propise
  • Financijski savjetnici — alat koji ne smije izmišljati tržišne podatke

Za sve njih, self-distillation SFT i selective freezing su konkretne tehnike koje se mogu primijeniti odmah uz minimalne izmjene postojećih trening pipeline-ova.

Zaključak

Paper daje jasan recept: tretiraj fine-tuning kao continual learning, ne kao ispočetka trening. Halucinacije nisu neizbježna posljedica — one su simptom grubog ažuriranja težina koji ne štiti postojeće znanje. Za profesionalne AI timove, ovaj nalaz prevodi problem iz “mistične pojave” u rješiv inženjerski zadatak.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.