Halucinacija

Halucinacija je output AI modela — najčešće velikog jezičnog modela — koji je tečan, samouvjeren i činjenično pogrešan. Tipični oblici: izmišljeni citati nepostojećih radova, fabriciran citati, izmišljena sudska praksa, pogrešne API potpise ili vjerodostojni-ali-lažni biografski detalji. Model “ne laže”; on proizvodi statistički vjerojatan nastavak koji slučajno nije istinit.

Uzroci: rupe u podacima za treniranje, kontradiktorne informacije u treniranju, dvosmisleni promptovi koji potiču izmišljanje, te temeljna priroda predviđanja sljedećeg tokena (koje optimizira za vjerodostojnost, ne za istinu).

Strategije ublažavanja:

Retrieval-Augmented Generation (RAG): utemelji odgovore u verificiranoj bazi znanja
Citati: zahtijevaj od modela da citira izvore iz prompta
Reasoning modeli: dulji chain-of-thought smanjuje neke klase grešaka
Verifier modeli: drugi model provjerava tvrdnje prvog
Niža temperatura: manje kreativno samplanje uz manje raznolikosti
Sistemski promptovi: eksplicitno “reci ‘ne znam’ ako nisi siguran”

Stope halucinacija znatno su pale od GPT-3.5 ere do trenutnih frontier modela, ali problem nije riješen. Produkcijski AI sustavi zahtijevaju pažljivu evaluaciju i edukaciju korisnika da LLM output nije autoritativan bez provjere.

Izvori

Vidi također