arXiv:2605.18747: Kod kao operativni supstrat — nova paradigma AI agenata
41 istraživač s UIUC-a i NVIDIA-e tvrdi da kod nije samo output LLM-a nego agent harness — operativni supstrat koji spaja rezoniranje, djelovanje i verifikaciju u jedinstven okvir za gradnju pouzdanih AI sustava.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Tim od 41 istraživača s UIUC-a, NVIDIA-e i suradnih institucija objavio je pregled koji rekonceptualizira ulogu koda u AI sustavima: kod nije samo ono što LLM generira — kod je infrastruktura unutar koje agent misli, djeluje i provjerava vlastite zaključke.
Što je agent harness?
U klasičnoj upotrebi LLM-a, model prima upit i vraća tekst. U paradigmi agent harness-a, kod preuzima tri međusobno isprepletene funkcije. Kao harness interface definira sučelje između agenta i okoline — precizira koje su akcije dostupne, kako se modelira stanje i kako agent prima povratni signal. Kao harness mehanizam omogućuje planiranje, upravljanje memorijom i korištenje alata unutar izvršivog okvira koji se može reproducirati i auditirati. Kao multi-agent substrat dijeljeni kod postaje medij koordinacije između više agenata — jedan agent može pregledati, testirati ili pobiti zaključak drugog putem zajedničkog koda kao zajedničkog jezika istine.
Ova tro-slojna arhitektura znači da greška u izvršavanju koda nije neuspjeh — ona je signal. LLM koji prima AssertionError ili TypeError iz sandboxa dobiva deterministički feedback koji može koristiti za ispravljanje rezoniranja, a ne nejasnu subjektivnu ocjenu.
Zašto je to paradigmatski pomak?
Dosadašnji okviri razdvajali su “reasoning” (što LLM radi u tekstu) od “action” (što agent radi u okolini). Ovaj rad argumentira da je to lažna granica — izvršivi kod unificira oboje. Kada agent piše Python petlju koja pretražuje prostor rješenja, istovremeno planira (struktura koda), djeluje (izvršavanje) i verificira (assert naredbe, testovi). Nema pauze između mišljenja i provjere.
Istraživači naglašavaju da to vrijedi od najjednostavnijih kodnih asistenata do utjelovljenih robota: u svim domenama kod je zajednički nazivnik koji čini agentsko ponašanje ponovljivim, prenosivim i auditorski provjerljivim. Kod je, tvrde, jedini formalni supstrat koji zadovoljava sva tri uvjeta odjednom.
Gdje su još otvorena pitanja?
Autori identificiraju šest kritičnih izazova. Evaluacija agenata i dalje se previše oslanja na zadatkovne metrike, a ne na kvalitetu samog procesa rezoniranja. Verifikacija u uvjetima nepotpunog feedbacka — kada sandbox ne može pokriti sve rubne slučajeve — ostaje nerješena. Posebno je istaknuto sprječavanje regresija: kako osigurati da agent koji nauči novi vještinu ne degradira stare? U multi-agent okruženjima upravljanje konzistentnim globalnim stanjem kroz dijeljeni kod postavlja fundamentalne izazove sinkronizacije. Na kraju, za sigurnosno kritične primjene humani nadzor mora biti uvriježen u sam harness — što je arhitekturalni, ne samo proceduralni problem.
Rad nudi jedinstven okvir za istraživače i inženjere koji grade agenate: umjesto da pitaju “koji LLM da koristim”, prikladnije je pitanje “kako strukturirati harness da kod postane pouzdan medij između modela i stvarnog svijeta.”
Česta pitanja
- Što je agent harness i zašto je kod idealan za tu ulogu?
- Agent harness je operativni supstrat koji LLM-u daje strukturu za rezoniranje, alate za djelovanje i mehanizme za verifikaciju rezultata. Kod je idealan jer je formalno precizan, strojno izvršiv i prirodno opisuje stanje, akcije i feedback — sve što agentu treba da zatvori petlju između zaključivanja i provjere.
- Kako izvršivi kod poboljšava LLM rezoniranje?
- Umjesto da LLM generira slobodni tekst koji se ne može provjeriti, kod prisiljava model na eksplicitan zapis koraka (planiranje), omogućuje pokretanje u sandboxu (verifikacija) i vraća deterministički signal o ispravnosti. Greška u izvršavanju je signal — ne neuspjeh. Time se rezoniranje premješta iz latentnog prostora u prostor koji se može auditirati i ispravljati.
- Koje domene pokriva paradigma koda kao agent harness-a?
- Istraživači su analizirali primjene u kodnim asistentima, GUI/OS automatizaciji, utjelovljenim agentima (roboti, simulacije), znanstvenom otkrivanju, personaliziranim sustavima, DevOps i enterprise radnim tokovima. Zajednički nazivnik je uvijek isti — izvršivi kod kao sučelje između LLM-a i okoline.