SEA agenti: Samo-poboljšanje uz formalna sigurnosna jamstva

Arhitektura SEA (Self-Evolving Agents with Anytime-Valid Certificates) omogućuje agentima ažuriranje vlastitih parametara uz zadržavanje formalnih learning-theoretic jamstava. Pet verifikacijskih mehanizama i auditabilni certifikati odobravaju ili blokiraju svaku samo-modifikaciju u realnom vremenu, a na SWE-bench Verified testiranju postiže +4 do +5 riješenih instanci na jakim baznim modelima.

Istraživač Biswa Sengupta objavio je 1. srpnja 2026. arhitekturu SEA (Self-Evolving Agents with Anytime-Valid Certificates) koja rješava jedno od temeljnih napetosti u razvoju AI agenata: kako omogućiti samo-modifikaciju bez žrtvovanja formalnih sigurnosnih jamstava.

Problem samo-modifikacije bez nadzora

Agenti koji mogu ažurirati vlastite težine ili upravljačke mehanizme narušavaju temeljne pretpostavke klasične teorije učenja. Kada agent sam generira podatke za vlastito učenje i sam procjenjuje kvalitetu tih podataka, standardni statistički okviri prestaju vrijed — nema neovisnog evaluatora koji potvrđuje da je promjena korisna.

Dosadašnji pristupi rješavali su problem ili zabranom samo-modifikacije (čime se gubi potencijal adaptacije) ili prihvaćanjem nekontroliranog samo-poboljšanja (čime se prihvaća nepredvidivo ponašanje).

SEA: Arhitektura s formalnim kapijama

SEA rješava ovu napetost na tri razine.

Prvo, ograničenje „blast radiusa”: sve samo-modifikacije ograničene su isključivo na steering adapter koji okružuje zamrznuti bazni model. Temeljne težine modela nikada se ne mijenjaju — što znači da čak i u scenariju potpuno pogrešne samo-modifikacije, bazna sposobnost modela ostaje netaknuta.

Drugo, pet verifikacijskih mehanizama koji generiraju signale za odobrenje ili odbijanje svake modifikacije bez potrebe za vanjskim evaluatorom:

Best-of-N odabir — uspoređuje više kandidatnih modifikacija
Micro-step pretraga — granularno pretraživanje prostora prilagodbi
Samo-napisani orakli — agent sam konstruira testove za vlastite modifikacije
Kontrola sloja pretrage — nadzor nad dubinom i smjerom pretraživanja
Samo-popravak — detekcija i korekcija regresija u realnom vremenu

Što su „anytime-valid certifikati”?

Treći stupanj je statistički: SEA koristi anytime-valid statističke kapije koje emitiraju auditabilni certifikat za svaku predloženu samo-modifikaciju. Certifikat potvrđuje da modifikacija ne premašuje unaprijed određeni budžet greške — i to u bilo kojem trenutku procesa, ne samo na kraju evaluacijskog perioda.

„Anytime-valid” znači da zaključak vrijedi bez obzira kada se evaluacija zaustavi — nema potrebe za unaprijed određenim brojem koraka. Ovo je bitno za deployment scenarije gdje agent radi u realnom vremenu i mora donositi odluke o samo-modifikaciji kontinuirano.

Rezultati na SWE-bench Verified

SEA je testiran na 52-instančnom podskupu SWE-bench Verified benchmarka kroz četiri bazna modela. Ključni nalaz: baza modela dominantan je čimbenik — SEA amplificira sposobnost jakih modela, ali ne maskira slabosti slabih.

Na jakim baznim modelima s no-op kontrolom, SEA postiže +4 do +5 dodatno riješenih instanci. Konkretni rezultati: GLM poboljšan s 24 na 28 riješenih instanci, GPT s 29 na 34. Event logovi potvrdili su da su verifikacijski mehanizmi aktivno spriječili performansne regresije tijekom testiranja.

Istraživači napominju da su evaluacije provedene u jednoj iteraciji zbog troška zadataka, a potvrda varijance između pokretanja ostaje za buduća istraživanja.

SEA demonstrira da samo-poboljšanje i sigurnosno upravljanje nisu u sukobu — formalna certifikacija moguća je i praktično korisna unutar granica operativnog agenta.

Česta pitanja

Što SEA čini drugačijim od dosadašnjih samo-poboljšavajućih agenata?

SEA ne dopušta slobodnu samo-modifikaciju — svaka promjena prolazi kroz anytime-valid statističke kapije koje emitiraju auditabilne certifikate i blokiraju modifikacije koje bi premašile unaprijed određeni budžet greške.

Kako je ograničen „blast radius” loše samo-modifikacije?

SEA ograničava sve izmjene na steering adapter oko zamrznutog baznog modela, tako da potencijalno štetna samo-editiranja ne mogu mijenjati temeljne težine modela.

Koliko je SEA poboljšao performanse na SWE-bench testiranju?

Na 52-instančnom SWE-bench Verified podskupu testiranom na četiri bazna modela, SEA je postigao +4 do +5 dodatno riješenih instanci na jakim baznim modelima — GLM je poboljšan s 24 na 28, GPT s 29 na 34.

SEA: Agenti koji se samo-modificiraju uz formalna sigurnosna jamstva u realnom vremenu

Problem samo-modifikacije bez nadzora

SEA: Arhitektura s formalnim kapijama

Što su „anytime-valid certifikati”?

Rezultati na SWE-bench Verified

Česta pitanja

Izvori

Povezane vijesti