ArXiv: Numerička nestabilnost u LLM-ovima — kako floating-point greške stvaraju kaos u transformerima
Zašto je bitno
Novo istraživanje rigorozno analizira kako greške zaokruživanja u floating-point aritmetici propagiraju kaos kroz slojeve transformer arhitekture. Rad identificira tri režima ponašanja — stabilni, kaotični i signal-dominirani — te dokazuje da numerička nestabilnost nije bug nego fundamentalno svojstvo LLM-ova koje ugrožava reproducibilnost u produkcijskim sustavima.
Zašto isti prompt daje različite odgovore?
Svaki korisnik velikih jezičnih modela primijetio je fenomen: isti upit upućen istom modelu ponekad daje različite odgovore. Dio tog ponašanja objašnjava se namjernom slučajnošću (temperature parametar), ali istraživači Chashi Mahiul Islam, Alan Villarreal i Mao Nishino pokazuju da postoji dublje objašnjenje — numerička nestabilnost inherentna samoj arhitekturi.
Floating-point aritmetika — sustav kojim računala predstavljaju decimalne brojeve s konačnom preciznošću — neizbježno uvodi greške zaokruživanja. Njihovo istraživanje prati kako se te greške “propagiraju, pojačavaju ili gase” prolazeći kroz slojeve transformer arhitekture.
Tri režima ponašanja
Rad identificira “lavinski efekt” (engl. avalanche effect) u ranim slojevima transformera, gdje male perturbacije vode prema binarnom ishodu — ili se rapidno pojačavaju ili se potpuno potiskuju. To stvara tri distinktna režima:
Stabilni režim nastaje kada su perturbacije ispod praga ovisnog o ulazu — greške nestaju i model daje konzistentne izlaze. Kaotični režim nastupa kada greške zaokruživanja dominiraju i pokreću divergenciju izlaza. Signal-dominirani režim je onaj gdje stvarne varijacije u ulazu nadvladavaju numerički šum.
Praktične implikacije za AI industriju
Ovi “univerzalni, skalo-ovisni kaotični obrasci” pojavljuju se across više datasetova i arhitektura, što znači da problem nije specifičan za jedan model ili proizvođača.
Za produkcijske sustave — posebno one integrirane u agentne workflow-ove gdje LLM-ovi donose odluke u lancima — ovo ima konkretne posljedice. Isti kod na različitom hardveru (GPU vs. TPU vs. CPU) može proizvesti različite izlaze ne zbog dizajna, nego zbog različite implementacije floating-point operacija. To ugrožava reproducibilnost, testiranje i certifikaciju AI sustava u reguliranim industrijama poput medicine ili financija.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Izvori
Povezane vijesti
Thinking with Reasoning Skills (ACL 2026 Industry Track): manje tokena, veća točnost kroz dohvat skilsova zaključivanja
DeepSeek objavio V4-Pro i V4-Flash: dva open-source modela s milijun tokena konteksta i 80,6 na SWE Verified
OpenAI predstavio GPT-5.5: najpametniji model za kodiranje, istraživanje i složenu analizu podataka kroz alate