arXiv:2606.27009: Semantičko rano zaustavljanje smanjuje trošak agentskih petlji za 38%
Semantic Early-Stopping for Iterative LLM Agent Loops predlaže metodu koja zaustavlja agentsku iteracijsku petlju čim embedding uzastopnih nacrta prestane semantički mijenjati — bez fiksnog broja koraka — i tako smanjuje potrošnju tokena za 38% uz identičnu kvalitetu.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Fiksne iteracije troše tokene nepotrebno
Standardni pristup iterativnim LLM agentskim petljama — poput onih u ReAct ili Chain-of-Thought sustavima — oslanja se na fiksni maksimalni broj koraka (max_iterations). Problem je strukturalan: jednostavni ulazi nastavljaju iterirati i nakon što je odgovor zapravo dovoljno dobar, dok teški ulazi bivaju prekinuti prerano. Istraživač Sahil Shrivastava u radu Semantic Early-Stopping for Iterative LLM Agent Loops (arXiv:2606.27009, objavljeno 25. lipnja 2026.) predlaže alternativu temeljenu na semantičkoj konvergenciji.
Kako radi: embeddinzi i kosinusna udaljenost
Metoda prati embedding — višedimenzionalni vektorski prikaz značenja teksta — svakog nacrta koji agent producira u pojedinoj iteraciji. Kosinusna udaljenost između dva uzastopna embeddinga mjeri koliko se njihovo semantičko značenje razlikuje: vrijednost blizu 0 znači gotovo identično značenje, vrijednost blizu 1 pak veliku promjenu. Kada udaljenost ostane ispod zadanog praga kroz cijeli patience prozor (niz uzastopnih koraka), sustav zaključuje da petlja konvergirala i zaustavlja se.
Rezultati na HotpotQA: -38% tokena, paritetna kvaliteta
Metoda je validirana na HotpotQA skupu — standardnom benchmarku za višeskokovito zaključivanje koji zahtijeva spajanje informacija iz više dokumenata. Semantičko rano zaustavljanje bez sudačkog (judge) ocjenjivanja smanjilo je operativne tokene za 38% relativno u usporedbi s fiksnim maksimalnim brojem iteracija. Razlika u Information Scoreu iznosi svega Δ-IS = -0,004 (p = 0,81) — statistički nevažna i inferiornija tek od oracle politike, koja bi uvijek odabrala optimalni krug i donijela +0,115 IS-a iznad svih praktičnih politika.
Zašto je važno za produkcijsku primjenu
Nasuprot oracle politici, semantičko zaustavljanje je deterministički provedivo bez globalnog znanja o svim iteracijama. Rad donosi i strojno verificirane dokaze terminacije, što ga čini teorijski utemeljenim za produkcijsku primjenu. Implementacija je open-source i dostupna na GitHubu, pa je gotova za ugradnju u postojeće agentske okvire.
Česta pitanja
- Kako semantičko rano zaustavljanje odlučuje kada stati?
- Mjeri kosinusnu udaljenost između embeddinga (vektorskih reprezentacija značenja) uzastopnih nacrta. Kad udaljenost padne ispod praga unutar patience prozora, sustav zaključuje da petlja više ne donosi semantički napredak i prekida se.
- Znači li 38% ušteda tokena i lošije rezultate?
- Ne — na HotpotQA skupu razlika u Information Scoreu iznosi svega -0,004 (p = 0,81), što statistički nije značajno. Kvaliteta ostaje na razini fiksnog maksimalnog broja iteracija.
Izvori
Povezane vijesti
Anthropic: Economic Index otkriva ritmove i obrasce korištenja AI-ja kroz dan
arXiv:2606.25524: Cliff Tokens — pojedinačni tokeni koji okidaju neuspjeh u matematičkom reasoningu
arXiv:2606.25519: Kvantizacija napuhuje zaključivanje — skriveni trošak niskobitnih modela