Temelji

Halucinacija

Kad jezični model generira informaciju koja zvuči vjerodostojno i samouvjereno, ali je činjenično netočna, izmišljena ili nije potkrijepljena podacima iz treniranja ili izvora.

Halucinacija je output AI modela — najčešće velikog jezičnog modela — koji je tečan, samouvjeren i činjenično pogrešan. Tipični oblici: izmišljeni citati nepostojećih radova, fabriciran citati, izmišljena sudska praksa, pogrešne API potpise ili vjerodostojni-ali-lažni biografski detalji. Model “ne laže”; on proizvodi statistički vjerojatan nastavak koji slučajno nije istinit.

Uzroci: rupe u podacima za treniranje, kontradiktorne informacije u treniranju, dvosmisleni promptovi koji potiču izmišljanje, te temeljna priroda predviđanja sljedećeg tokena (koje optimizira za vjerodostojnost, ne za istinu).

Strategije ublažavanja:

  • Retrieval-Augmented Generation (RAG): utemelji odgovore u verificiranoj bazi znanja
  • Citati: zahtijevaj od modela da citira izvore iz prompta
  • Reasoning modeli: dulji chain-of-thought smanjuje neke klase grešaka
  • Verifier modeli: drugi model provjerava tvrdnje prvog
  • Niža temperatura: manje kreativno samplanje uz manje raznolikosti
  • Sistemski promptovi: eksplicitno “reci ‘ne znam’ ako nisi siguran”

Stope halucinacija znatno su pale od GPT-3.5 ere do trenutnih frontier modela, ali problem nije riješen. Produkcijski AI sustavi zahtijevaju pažljivu evaluaciju i edukaciju korisnika da LLM output nije autoritativan bez provjere.

Izvori

Vidi također