Što uzrokuje nepredvidivost u LLM-ovima?

Konačna preciznost floating-point brojeva (npr. float16, bfloat16) stvara greške zaokruživanja koje se mogu eksponencijalno pojačati prolazeći kroz slojeve transformera.

Kako to utječe na produkcijske AI sustave?

Isti upit može dati različite odgovore na različitom hardveru ili čak pri ponovljenom pokretanju, što ugrožava pouzdanost i reproducibilnost u kritičnim primjenama.

ArXiv: Numerička nestabilnost u LLM-ovima — kako floating-point greške stvaraju kaos u transformerima

Zašto isti prompt daje različite odgovore?

Svaki korisnik velikih jezičnih modela primijetio je fenomen: isti upit upućen istom modelu ponekad daje različite odgovore. Dio tog ponašanja objašnjava se namjernom slučajnošću (temperature parametar), ali istraživači Chashi Mahiul Islam, Alan Villarreal i Mao Nishino pokazuju da postoji dublje objašnjenje — numerička nestabilnost inherentna samoj arhitekturi.

Floating-point aritmetika — sustav kojim računala predstavljaju decimalne brojeve s konačnom preciznošću — neizbježno uvodi greške zaokruživanja. Njihovo istraživanje prati kako se te greške “propagiraju, pojačavaju ili gase” prolazeći kroz slojeve transformer arhitekture.

Tri režima ponašanja

Rad identificira “lavinski efekt” (engl. avalanche effect) u ranim slojevima transformera, gdje male perturbacije vode prema binarnom ishodu — ili se rapidno pojačavaju ili se potpuno potiskuju. To stvara tri distinktna režima:

Stabilni režim nastaje kada su perturbacije ispod praga ovisnog o ulazu — greške nestaju i model daje konzistentne izlaze. Kaotični režim nastupa kada greške zaokruživanja dominiraju i pokreću divergenciju izlaza. Signal-dominirani režim je onaj gdje stvarne varijacije u ulazu nadvladavaju numerički šum.

Praktične implikacije za AI industriju

Ovi “univerzalni, skalo-ovisni kaotični obrasci” pojavljuju se across više datasetova i arhitektura, što znači da problem nije specifičan za jedan model ili proizvođača.

Za produkcijske sustave — posebno one integrirane u agentne workflow-ove gdje LLM-ovi donose odluke u lancima — ovo ima konkretne posljedice. Isti kod na različitom hardveru (GPU vs. TPU vs. CPU) može proizvesti različite izlaze ne zbog dizajna, nego zbog različite implementacije floating-point operacija. To ugrožava reproducibilnost, testiranje i certifikaciju AI sustava u reguliranim industrijama poput medicine ili financija.

ArXiv: Numerička nestabilnost u LLM-ovima — kako floating-point greške stvaraju kaos u transformerima

Zašto isti prompt daje različite odgovore?

Tri režima ponašanja

Praktične implikacije za AI industriju

Izvori

Povezane vijesti