arXiv:2606.28270: Agent-Native Immune System — šestoslojna runtime obrana ugrađena u zaključivanje AI agenata
Agent-Native Immune System je obrambeni framework koji zaštitne mehanizme ugrađuje izravno u kognitivnu petlju AI agenta. Šest slojeva obrane (L0-L5), formalna taksonomija prijetnji i adaptivno učenje čine temelj runtime zaštite — za razliku od dosadašnjih pristupa koji se oslanjaju isključivo na training-time alignment.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Kako radi imunološka analogija
Autonomni AI agenti — opremljeni trajnom memorijom, protokolima za korištenje alata i višeagentnom suradnjom — temeljito su promijenili krajolik kibernetičkih prijetnji. Bo Shen i devet suautora u radu arXiv:2606.28270 polaze od jedne ključne dijagnoze: dosadašnji obrambeni mehanizmi, uključujući training-time alignment (statički postupak kojim se AI model “usklađuje” s prihvatljivim vrijednostima za vrijeme treniranja), ostaju izvan aktivne petlje zaključivanja agenta. Rezultat je zabrinjavajuć — čak i potpuno alignan agent ostaje visoko ranjiv na runtime hijacking: trovanje memorije, manipulaciju lancima alata ili napade na višeagentne protokole.
Agent-Native Immune System (ANIS) rješava taj jaz inspiracijom iz biologije. Kao što ljudski imunološki sustav djeluje iznutra organizma — ne samo na granicama — ANIS ugrađuje obrambene mehanizme izravno u kognitivnu petlju agenta, aktivno za vrijeme izvođenja (runtime zaštita: obrana koja se odvija dok agent radi, ne u fazi treniranja). To je fundamentalna razlika od svih prethodnih pristupa.
Šest slojeva obrane
Središnji element arhitekture je Immune Tower — šestoslojna struktura (L0–L5). Sloj L1, nazvan Barrier Immunity, posebno se ističe: radi se o ne-kognitivnoj, fizičkoj i logičkoj izolaciji koja ne ovisi o razumijevanju ili zaključivanju agenta. Preostali slojevi pokrivaju raspon od perimetarske zaštite do višeagentne koordinacije.
Uz slojevitu arhitekturu, rad uvodi formalnu taksonomiju: “Agent Virusi” (prijetnje) i “Agent Cjepiva” (protumjere), s jasnom distinkcijom između površinskih ne-parametarskih obrana i robusnih parametarskih cjepiva. Ovo je prvi pokušaj da se prijetnje i protumjere za autonomne agente formaliziraju na jedinstven način.
Zašto je ovo važno za razvoj AI agenata?
Treći stup sustava je Harness Triad (Meta, Self, Auto) — okvir metakognitivne automatizacije koji pokreće Continual Immune Learning (CIL). Zahvaljujući CIL-u, ANIS se dinamički prilagođava novim prijetnjama, za razliku od statičnog training-time alignmenta koji ne može reagirati na napade koji se pojavljuju tek za runtime.
Autori eksplicitno postavljaju teorijsku granicu: alignment je “ustavni” temelj vrijednosti definiran treniranjem, a ANIS je dinamički “mehanizam provedbe zakona” za vrijeme izvođenja. Preprint (10 autora, predan 2026-06-26, objavljen na arXiv-u 2026-06-29) predlaže arhitekturu i taksonomiju — nije deployani proizvod.
Česta pitanja
- Što razlikuje ANIS od klasičnog alignmenta AI modela?
- Training-time alignment je statički 'ustavni' temelj vrijednosti definiran pri treniranju — i ne može reagirati na napade koji se dogode za runtime. ANIS je dinamički 'mehanizam provedbe zakona' ugrađen u kognitivnu petlju agenta: djeluje za vrijeme izvođenja i prilagođava se novim prijetnjama poput trovanja memorije ili manipulacije alatima.
- Što je Immune Tower i od čega se sastoji?
- Immune Tower je šestoslojna arhitektura (L0–L5) unutar ANIS-a. Sloj L1 (Barrier Immunity) poseban je jer je ne-kognitivna fizička i logička izolacija koja ne ovisi o procesima zaključivanja agenta. Ostali slojevi pokrivaju perimetarsku zaštitu, zaštitu alata, višeagentnu koordinaciju i adaptivno imunološko učenje (CIL).
Povezane vijesti
arXiv:2606.28061: ToolPrivacyBench — mjeri 'need-to-know' privatnost u LLM agentima s alatima
AWS: multi-tenant AI agent s row-level security i Split-Plane SQL kriptografskim granicama podataka
arXiv:2606.26686: LeanGuard — brza moderacija sadržaja bez chain-of-thought dostiže teške reasonere