arXiv MOSS: agenti popravljaju vlastiti izvorni kod

Istraživači su predstavili MOSS, framework za autonomne agente koji se poboljšavaju prepravljanjem svog izvornog koda — ne samo prompta ili fine-tuning težina. Na OpenClaw benchmarku jedan ciklus MOSS samoevolucije podiže rezultat s 0,25 na 0,61 bez ikakve ljudske intervencije, pokazujući da agenti mogu popraviti routing, hooks i dispatch logiku koju text-only metode ne dotiču.

ArXiv preprint MOSS objavljen 21. svibnja 2026. predstavlja framework za autonomne agente koji se unapređuju prepravljanjem vlastitog izvornog koda — ne samo prompta ili fine-tuning težina. Autori dokumentiraju da MOSS agent identificira proizvodne neuspjehe, delegira popravak coding agentu, verificira promjenu u ephemeral test sandboxu, i tek nakon validacije deploya s rollback mehanizmom. U jednom autonomnom ciklusu na OpenClaw benchmarku rezultat skače s baseline 0,25 na 0,61, što su autori usporedili s prompt-only self-improvement baseline-om koji ostaje na 0,28.

Kako MOSS razlikuje strukturalne od površinskih popravaka?

MOSS gradi razliku između dvije kategorije propusta. Površinski propusti su krivi prompti, loši primjeri u few-shot bloku ili previše rigidno definirana persona — sve su to stvari koje prompt engineering može popraviti. Strukturalni propusti su krive routing pravila u multi-agent dispatchu, propušteni hookovi za error handling, nesigurni pristup state-u u paralelnim subagentima, i logičke greške u toolu integraciji. MOSS pokazuje da prompt-only metode ne mogu popraviti strukturalne propuste jer ti propusti žive u Python/TypeScript kodu, ne u prompt tekstu.

Konkretno, kad MOSS na OpenClaw zadatku detektira da subagent vraća polu-validne JSON-ove, ne pokušava prepraviti prompt da subagent “bolje pazi” — on otvara dispatch.py, dodaje JSON Schema validator s rollback semantikom, deploya promjenu u sandboxu, i verificira da neuspjeli scenariji sad prolaze. To je strukturalni popravak koji prompt-only baseline ne može replicirati.

Što je OpenClaw benchmark i zašto je 0,61 značajno?

OpenClaw je benchmark s 240 multi-step proizvodnih zadataka koji zahtijevaju od agenta da rezolviraju kombinaciju retrieve-and-summarize, code-modify, deploy-verify operacija. Baseline rezultat 0,25 je očekivan za state-of-the-art LLM agente bez self-improvement loopa. Rezultat 0,61 nakon jednog MOSS ciklusa znači da je 87 dodatnih zadataka iz 240 sad uspješno riješeno — što je granično superhuman performans za samostalnu autonomnu poboljšanu agentnu sesiju.

Autori naglašavaju da MOSS nije pronašao “magični trik” — popravci su konkretni i auditabilni. Tipičan popravak je 15-40 linija Python koda, traje od 2 do 8 minuta wall-clock vremena, i ostavlja git commit povijest koja je čitljiva ljudskom revieweru.

Koji su sigurnosni rizici i kako MOSS odgovara na njih?

Autori detaljno raspravljaju sigurnosne mehanizme. Svaka promjena prolazi kroz ephemeral testni sandbox koji simulira produkcijsko okruženje bez pristupa stvarnim podacima. Pre-deploy mora proći regresijski test set koji se širi automatski svakim novim scenarijem koji je MOSS riješio. Post-deploy se aktivira rollback ako se uoči nova regresija u proizvodnim metrikama. Sve promjene su commit-ane u git s detaljnim commit porukama koje opisuju koju klasu propusta popravljaju.

Ipak, autori priznaju otvoreni problem: ako agent može mijenjati vlastiti kod, ljudski reviewer ne može pratiti svaku iteraciju u realnom vremenu. Predlažu da se MOSS u produkciji koristi s tjednim oversight gateom u kojem se kumulativne promjene human-review-aju prije nego se uvrste u stabilnu granu. Bez toga, sistem može akumulirati subtilne promjene koje su lokalno racionalne ali globalno mijenjaju semantiku agenta na neželjene načine.

Česta pitanja

Što MOSS razlikuje od standardnih self-improving agenata?

Standardni self-improving agenti modificiraju samo prompt ili fine-tuning težine; MOSS umjesto toga mijenja sam izvorni kod agenta — routing, hooks, dispatch logiku — što omogućuje strukturalne popravke koje prompt-only metode ne mogu napraviti.

Koja je glavna metrička brojka iz MOSS rada?

Na OpenClaw benchmarku MOSS u jednom ciklusu samoevolucije podiže rezultat s 0,25 na 0,61 bez ljudske intervencije, dok ekvivalentni prompt-only baseline ostaje na 0,28.

Koji su rizici autonomnih self-evolving agenata?

Glavni rizik je gubitak nadzora — ako agent može mijenjati vlastiti kod, ljudski reviewer ne može pratiti svaku iteraciju. MOSS autori predlažu kombinaciju ephemeral sandbox testova, rollback mehanizama i kvalitetnih oversight gateova prije produkcijskog deploya.

arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod

Kako MOSS razlikuje strukturalne od površinskih popravaka?

Što je OpenClaw benchmark i zašto je 0,61 značajno?

Koji su sigurnosni rizici i kako MOSS odgovara na njih?

Česta pitanja

Izvori

Povezane vijesti