Temelji
Halucinacija
Kad jezični model generira informaciju koja zvuči vjerodostojno i samouvjereno, ali je činjenično netočna, izmišljena ili nije potkrijepljena podacima iz treniranja ili izvora.
Halucinacija je output AI modela — najčešće velikog jezičnog modela — koji je tečan, samouvjeren i činjenično pogrešan. Tipični oblici: izmišljeni citati nepostojećih radova, fabriciran citati, izmišljena sudska praksa, pogrešne API potpise ili vjerodostojni-ali-lažni biografski detalji. Model “ne laže”; on proizvodi statistički vjerojatan nastavak koji slučajno nije istinit.
Uzroci: rupe u podacima za treniranje, kontradiktorne informacije u treniranju, dvosmisleni promptovi koji potiču izmišljanje, te temeljna priroda predviđanja sljedećeg tokena (koje optimizira za vjerodostojnost, ne za istinu).
Strategije ublažavanja:
- Retrieval-Augmented Generation (RAG): utemelji odgovore u verificiranoj bazi znanja
- Citati: zahtijevaj od modela da citira izvore iz prompta
- Reasoning modeli: dulji chain-of-thought smanjuje neke klase grešaka
- Verifier modeli: drugi model provjerava tvrdnje prvog
- Niža temperatura: manje kreativno samplanje uz manje raznolikosti
- Sistemski promptovi: eksplicitno “reci ‘ne znam’ ako nisi siguran”
Stope halucinacija znatno su pale od GPT-3.5 ere do trenutnih frontier modela, ali problem nije riješen. Produkcijski AI sustavi zahtijevaju pažljivu evaluaciju i edukaciju korisnika da LLM output nije autoritativan bez provjere.