arXiv:2605.18732: Zakon skaliranja za halucinacije — veći model ne znači nužno manje grešaka
Istraživači su na 38 modela i 8900+ referenci pokazali da faktički recall LLM-a prati sigmoid-krivulju: kombinacija broja parametara i zastupljenosti teme u training dati objašnjava 60–94% varijance. Hallucinations nisu slučajne — predvidive su i mjerljive.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Halucinacije su predvidive — i to matematički
Novi rad s arXiv-a (2605.18732) donosi neugodan, ali koristan zaključak: confabulations (termin koji autori preferiraju umjesto “hallucinations”) nisu nasumične greške. Radi se o predvidivim pojavama koje slijede zakon skaliranja — baš kao što to čini jezična fluentnost ili razumijevanje konteksta.
Tim istraživača s Université du Luxembourg testirao je 38 modela na više od 8 900 znanstvenih referenci i otkrio da kvaliteta faktičkog prisjećanja (factual recall) prati sigmoidnu krivulju u log-linearnoj kombinaciji dvaju faktora: broja parametara modela i zastupljenosti teme u training dati.
Zašto sigmoid — i što to znači u praksi?
Sigmoid-funkcija opisuje prijelaz iz “gotovo nikad točno” u “gotovo uvijek točno” kroz relativno uzak raspon ulaznih vrijednosti. Analogija: čovjek ne pamti tek pročitanu recenicu linearno bolje što je pametniji — postoji prag ispod kojeg ništa ne ostane, i prag iznad kojeg sve ostaje.
Za LLM-ove to znači: ako je tema rijetko zastupljena u training dati (npr. obscurni znanstveni rad), čak i veliki model će confabulirati — izmišljati autore, godinu, zaključke. S druge strane, dobro zastupljena tema uz dovoljno parametara ulazi u “sigurnu zonu” sigmoidne krivulje. Autori modeliraju ovo kao omjer signal/šum: signal je frekvencija koncepta u podacima, šum je kapacitetni “pod” modela ispod kojeg recall ne funkcionira.
Je li confabulation ista stvar kao hallucination?
Nije posve. Hallucination je širi, poluformalni termin — obuhvaća sve situacije gdje model generira sadržaj bez utemeljenja u ulazu ili stvarnosti. Confabulation (posuđeno iz neuropsihologije) preciznije opisuje samouvereno popunjavanje praznina — model ne zna da ne zna, pa sintetizira uvjerljiv ali netočan odgovor. Rad koristi ovaj termin upravo zato što naglašava predvidivost i strukturiranost greške, nasuprot slučajnosti.
Praktična posljedica: 60–94% varijance u faktičkoj točnosti objašnjivo je dvama mjerljivim faktorima. To znači da je moguće unaprijed procijeniti rizik halucinacije za određenu temu, bez da se model mora testirati na svakom upitu iznova.
Česta pitanja
- Što su confabulations u kontekstu LLM-a?
- Confabulations su izmišljene ili nepouzdano prisjećene činjenice (autori, godine, zaključci) koje LLM-ovi proizvode kad tema nije dovoljno zastupljena u training podacima. Autori papera preferiraju termin nego 'hallucinations'.
- Zašto sigmoidna krivulja, a ne linearno opadanje grešaka?
- Sigmoidna krivulja opisuje prag-prijelaze: ispod određene zastupljenosti teme u training data, čak i veliki modeli ne pamte ništa pouzdano. Iznad praga, recall brzo dostiže 'gotovo uvijek točno'. Samo veličina modela nije dovoljna — odlučujuća je signal/šum kombinacija.
- Koja je praktična implikacija ovog rada?
- Halucinacije se mogu predvidjeti prije inference-a ako znamo veličinu modela i procjenu zastupljenosti teme u training data. To otvara mogućnost za 'confidence routing' — system delegira upite za niskoresurske teme na alate koji koriste vanjske izvore (RAG, search), umjesto pukog oslanjanja na LLM recall.