AI Safety Kernel: 0 bijega u 1000 ciklusa

The Unfireable Safety Kernel je Rust-baziran sigurnosni sloj koji usklađivanje AI agenata provodi izvana — procesnom separacijom i kriptografskom verifikacijom. U 1000 ciklusa testiranja svih 704 pokušaja bijega odbijeno je bez ijednog uspješnog zaobilaženja.

Zašto interni sigurnosni mehanizmi nisu dovoljni?

AI agenti koji imaju pristup alatima — poput pisanja koda, izvršavanja naredbi ili slanja mrežnih zahtjeva — mogu teorijski izmijeniti vlastite sigurnosne kontrole ako su te kontrole smještene unutar istog procesa. Seth Dobrin i Łukasz Chmiel u radu „The Unfireable Safety Kernel: Execution-Time AI Alignment for AI Agents and Other Escapable AI Systems” (arXiv:2606.26057, submittano 24. lipnja 2026.) predlažu arhitekturalni odgovor: premjestiti autorizacijski sloj izvan dosega agenta.

AI alignment — usklađivanje ponašanja AI sustava s ljudskim namjerama i vrijednostima — dosad se primarno provodilo tijekom treniranja (RLHF, Constitutional AI). Ovaj rad tretira alignment kao problem koji treba rješavati i u trenutku izvršavanja, neovisno o tome što je agent „naučio”.

Kako kernel funkcionira?

Unfireable Safety Kernel implementiran je u programskom jeziku Rust i temelji se na četiri formalna svojstva: procesna separacija (kernel i agent rade u zasebnim procesima), provedba akcija prije njihova izvršenja, fail-closed ponašanje (svaka greška zatvara sustav umjesto da ga propušta dalje) te kriptografski potpisani dokazi o svakoj autorizacijskoj odluci.

Za razliku od internih pristupa koji su dio agentovog softvera i time ranjivi, vanjski kernel nije dostupan agentu — nalikuje kill-switchu koji agent fizički ne može isključiti jer ne živi u istom procesu.

Rezultati: 0 bijega u 1000 ciklusa

Autori su formalno verificirali sustav kombinacijom Z3 SMT theorem provera i Kani bounded-model checkinga. Eksperimentalno testiranje pokazalo je iznimne rezultate: od 1000 ciklusa samoupravnog world modela, svih 704 pokušaja napada na sigurnosnu jezgru odbijeno je bez ijednog uspješnog bijega. Uz to, provedeno je 6240 autorizacijskih round-tripova — zabilježeno je 0 zaobilaženja. Dodatno, 300 kill-switch scenarija — svi odbijeni.

Usporedba s internim pristupima je ključna: tradicionalni interni sigurnosni sloj ovisio bi o agentovoj suradnji i mogao bi biti onemogućen vlastitom modifikacijom, dok vanjski kernel ostaje nepromijenjen bez obzira na ponašanje agenta.

Kontekst i primjena

Rad pozicionira execution-time alignment kao komplementarni sloj uz treniranske metode poput RLHF-a — ne kao zamjenu, već kao drugu liniju obrane. Pristup je osobito relevantan za autonomne agente koji se koriste u produkcijskim okruženjima s pristupom kritičnoj infrastrukturi, gdje propust u internim kontrolama može imati ozbiljne posljedice.

Česta pitanja

Zašto nije dovoljno ugraditi sigurnosne kontrole unutar samog AI agenta?

Agenti s pristupom alatima mogu potencijalno izmijeniti vlastiti runtime i zaobići interne kontrole. Vanjski kernel koji radi u odvojenom procesu nije dostupan agentu pa ga ni ne može onemogućiti.

Koje su četiri ključna svojstva Unfireable Safety Kernela?

Procesna separacija, provedba akcija prije njihovog izvršenja, fail-closed ponašanje (sustav se zatvara pri grešci) i kriptografski potpisani dokazi o svakoj odluci.

arXiv:2606.26057: The Unfireable Safety Kernel — vanjsko izvršno usklađivanje AI agenata

Zašto interni sigurnosni mehanizmi nisu dovoljni?

Kako kernel funkcionira?

Rezultati: 0 bijega u 1000 ciklusa

Kontekst i primjena

Česta pitanja

Izvori

Povezane vijesti