SEA: Agenti koji se samo-modificiraju uz formalna sigurnosna jamstva u realnom vremenu
Arhitektura SEA (Self-Evolving Agents with Anytime-Valid Certificates) omogućuje agentima ažuriranje vlastitih parametara uz zadržavanje formalnih learning-theoretic jamstava. Pet verifikacijskih mehanizama i auditabilni certifikati odobravaju ili blokiraju svaku samo-modifikaciju u realnom vremenu, a na SWE-bench Verified testiranju postiže +4 do +5 riješenih instanci na jakim baznim modelima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživač Biswa Sengupta objavio je 1. srpnja 2026. arhitekturu SEA (Self-Evolving Agents with Anytime-Valid Certificates) koja rješava jedno od temeljnih napetosti u razvoju AI agenata: kako omogućiti samo-modifikaciju bez žrtvovanja formalnih sigurnosnih jamstava.
Problem samo-modifikacije bez nadzora
Agenti koji mogu ažurirati vlastite težine ili upravljačke mehanizme narušavaju temeljne pretpostavke klasične teorije učenja. Kada agent sam generira podatke za vlastito učenje i sam procjenjuje kvalitetu tih podataka, standardni statistički okviri prestaju vrijed — nema neovisnog evaluatora koji potvrđuje da je promjena korisna.
Dosadašnji pristupi rješavali su problem ili zabranom samo-modifikacije (čime se gubi potencijal adaptacije) ili prihvaćanjem nekontroliranog samo-poboljšanja (čime se prihvaća nepredvidivo ponašanje).
SEA: Arhitektura s formalnim kapijama
SEA rješava ovu napetost na tri razine.
Prvo, ograničenje „blast radiusa”: sve samo-modifikacije ograničene su isključivo na steering adapter koji okružuje zamrznuti bazni model. Temeljne težine modela nikada se ne mijenjaju — što znači da čak i u scenariju potpuno pogrešne samo-modifikacije, bazna sposobnost modela ostaje netaknuta.
Drugo, pet verifikacijskih mehanizama koji generiraju signale za odobrenje ili odbijanje svake modifikacije bez potrebe za vanjskim evaluatorom:
- Best-of-N odabir — uspoređuje više kandidatnih modifikacija
- Micro-step pretraga — granularno pretraživanje prostora prilagodbi
- Samo-napisani orakli — agent sam konstruira testove za vlastite modifikacije
- Kontrola sloja pretrage — nadzor nad dubinom i smjerom pretraživanja
- Samo-popravak — detekcija i korekcija regresija u realnom vremenu
Što su „anytime-valid certifikati”?
Treći stupanj je statistički: SEA koristi anytime-valid statističke kapije koje emitiraju auditabilni certifikat za svaku predloženu samo-modifikaciju. Certifikat potvrđuje da modifikacija ne premašuje unaprijed određeni budžet greške — i to u bilo kojem trenutku procesa, ne samo na kraju evaluacijskog perioda.
„Anytime-valid” znači da zaključak vrijedi bez obzira kada se evaluacija zaustavi — nema potrebe za unaprijed određenim brojem koraka. Ovo je bitno za deployment scenarije gdje agent radi u realnom vremenu i mora donositi odluke o samo-modifikaciji kontinuirano.
Rezultati na SWE-bench Verified
SEA je testiran na 52-instančnom podskupu SWE-bench Verified benchmarka kroz četiri bazna modela. Ključni nalaz: baza modela dominantan je čimbenik — SEA amplificira sposobnost jakih modela, ali ne maskira slabosti slabih.
Na jakim baznim modelima s no-op kontrolom, SEA postiže +4 do +5 dodatno riješenih instanci. Konkretni rezultati: GLM poboljšan s 24 na 28 riješenih instanci, GPT s 29 na 34. Event logovi potvrdili su da su verifikacijski mehanizmi aktivno spriječili performansne regresije tijekom testiranja.
Istraživači napominju da su evaluacije provedene u jednoj iteraciji zbog troška zadataka, a potvrda varijance između pokretanja ostaje za buduća istraživanja.
SEA demonstrira da samo-poboljšanje i sigurnosno upravljanje nisu u sukobu — formalna certifikacija moguća je i praktično korisna unutar granica operativnog agenta.
Česta pitanja
- Što SEA čini drugačijim od dosadašnjih samo-poboljšavajućih agenata?
- SEA ne dopušta slobodnu samo-modifikaciju — svaka promjena prolazi kroz anytime-valid statističke kapije koje emitiraju auditabilne certifikate i blokiraju modifikacije koje bi premašile unaprijed određeni budžet greške.
- Kako je ograničen „blast radius” loše samo-modifikacije?
- SEA ograničava sve izmjene na steering adapter oko zamrznutog baznog modela, tako da potencijalno štetna samo-editiranja ne mogu mijenjati temeljne težine modela.
- Koliko je SEA poboljšao performanse na SWE-bench testiranju?
- Na 52-instančnom SWE-bench Verified podskupu testiranom na četiri bazna modela, SEA je postigao +4 do +5 dodatno riješenih instanci na jakim baznim modelima — GLM je poboljšan s 24 na 28, GPT s 29 na 34.