Semantičko zaustavljanje agenta: -38% tokena

Semantic Early-Stopping for Iterative LLM Agent Loops predlaže metodu koja zaustavlja agentsku iteracijsku petlju čim embedding uzastopnih nacrta prestane semantički mijenjati — bez fiksnog broja koraka — i tako smanjuje potrošnju tokena za 38% uz identičnu kvalitetu.

Fiksne iteracije troše tokene nepotrebno

Standardni pristup iterativnim LLM agentskim petljama — poput onih u ReAct ili Chain-of-Thought sustavima — oslanja se na fiksni maksimalni broj koraka (max_iterations). Problem je strukturalan: jednostavni ulazi nastavljaju iterirati i nakon što je odgovor zapravo dovoljno dobar, dok teški ulazi bivaju prekinuti prerano. Istraživač Sahil Shrivastava u radu Semantic Early-Stopping for Iterative LLM Agent Loops (arXiv:2606.27009, objavljeno 25. lipnja 2026.) predlaže alternativu temeljenu na semantičkoj konvergenciji.

Kako radi: embeddinzi i kosinusna udaljenost

Metoda prati embedding — višedimenzionalni vektorski prikaz značenja teksta — svakog nacrta koji agent producira u pojedinoj iteraciji. Kosinusna udaljenost između dva uzastopna embeddinga mjeri koliko se njihovo semantičko značenje razlikuje: vrijednost blizu 0 znači gotovo identično značenje, vrijednost blizu 1 pak veliku promjenu. Kada udaljenost ostane ispod zadanog praga kroz cijeli patience prozor (niz uzastopnih koraka), sustav zaključuje da petlja konvergirala i zaustavlja se.

Rezultati na HotpotQA: -38% tokena, paritetna kvaliteta

Metoda je validirana na HotpotQA skupu — standardnom benchmarku za višeskokovito zaključivanje koji zahtijeva spajanje informacija iz više dokumenata. Semantičko rano zaustavljanje bez sudačkog (judge) ocjenjivanja smanjilo je operativne tokene za 38% relativno u usporedbi s fiksnim maksimalnim brojem iteracija. Razlika u Information Scoreu iznosi svega Δ-IS = -0,004 (p = 0,81) — statistički nevažna i inferiornija tek od oracle politike, koja bi uvijek odabrala optimalni krug i donijela +0,115 IS-a iznad svih praktičnih politika.

Zašto je važno za produkcijsku primjenu

Nasuprot oracle politici, semantičko zaustavljanje je deterministički provedivo bez globalnog znanja o svim iteracijama. Rad donosi i strojno verificirane dokaze terminacije, što ga čini teorijski utemeljenim za produkcijsku primjenu. Implementacija je open-source i dostupna na GitHubu, pa je gotova za ugradnju u postojeće agentske okvire.

Česta pitanja

Kako semantičko rano zaustavljanje odlučuje kada stati?

Mjeri kosinusnu udaljenost između embeddinga (vektorskih reprezentacija značenja) uzastopnih nacrta. Kad udaljenost padne ispod praga unutar patience prozora, sustav zaključuje da petlja više ne donosi semantički napredak i prekida se.

Znači li 38% ušteda tokena i lošije rezultate?

Ne — na HotpotQA skupu razlika u Information Scoreu iznosi svega -0,004 (p = 0,81), što statistički nije značajno. Kvaliteta ostaje na razini fiksnog maksimalnog broja iteracija.

arXiv:2606.27009: Semantičko rano zaustavljanje smanjuje trošak agentskih petlji za 38%

Fiksne iteracije troše tokene nepotrebno

Kako radi: embeddinzi i kosinusna udaljenost

Rezultati na HotpotQA: -38% tokena, paritetna kvaliteta

Zašto je važno za produkcijsku primjenu

Česta pitanja

Izvori

Povezane vijesti