AgentTrust: runtime safety za AI agente

AgentTrust je open-source runtime sustav koji presreće pozive alata AI agenata — file operacije, SQL upite i shell naredbe — i pred izvršenjem vraća jednu od četiri presude. Na 930 testnih scenarija postiže 95 do 97% točnosti, a oko 93% na shell-obfusciranim napadima.

Novi rad objavljen na arXivu predstavlja AgentTrust, runtime sigurnosni sloj koji se postavlja između AI agenta i njegovih alata te u realnom vremenu prosuđuje svaki poziv prije nego što se izvrši. Sustav cilja na ranjivosti koje se pojavljuju kada agenti dobivaju širok pristup operativnom sustavu i vanjskim servisima.

Kako AgentTrust odlučuje što dopustiti?

Za svaki dolazni poziv alata AgentTrust vraća jednu od četiri presude: dozvoli, upozori, blokiraj ili pošalji na pregled. Arhitektura kombinira shell deobfuscation normalizator, SafeFix komponentu koja sugerira sigurnije alternative, RiskChain detektor za višekoračne lance napada i cache-aware LLM-as-Judge sloj za dvojbene ulaze. Pokriveni alati uključuju operacije s datotekama, SQL upite i shell naredbe, što su tri najčešće površine napada u produkcijskim agentskim sustavima.

Koliko je sustav točan?

Evaluacija je provedena na ukupno 930 scenarija — 300 internih kroz šest kategorija rizika i 630 nezavisno konstruiranih adversarijalnih situacija iz stvarnog svijeta. Produkcijski ruleset postiže 95,0% točnosti presude na internom benchmarku i 73,7% točnosti rizičnog stupnja uz latenciju u rasponu nekoliko milisekundi. Na 630-scenarijskom skupu AgentTrust dostiže 96,7% točnosti, uključujući oko 93% točnosti na shell-obfusciranim payloadima koji obično zaobilaze jednostavnije filtre.

Što znači open-source isporuka?

Autor (Chenglin Yang) objavio je AgentTrust pod AGPL-3.0 licencom, što obvezuje izvedene radove na isto open-source dijeljenje. Sustav se isporučuje kao MCP server (Model Context Protocol — otvoreni standard za pozivanje vanjskih alata iz LLM-ova), pa ga je moguće priključiti na bilo kojeg agenta koji podržava MCP bez prepravki agentskog koda. Time se snižava prag za uvođenje runtime kontrole u postojeće agentske workflowe.

Česta pitanja

Što presreće AgentTrust?

Sustav presreće pozive alata AI agenata pred njihovim izvršenjem — konkretno file operacije, SQL upite i shell naredbe — i u realnom vremenu odlučuje hoće li ih dopustiti ili zaustaviti.

Koje presude AgentTrust vraća?

Četiri moguće presude: dozvoli (allow), upozori (warn), blokiraj (block) i pošalji na ljudski pregled (review). Dodatno postoji SafeFix komponenta koja predlaže sigurnije alternative.

Pod kojom je licencom dostupan?

Sustav je objavljen pod AGPL-3.0 open-source licencom i isporučuje se kao MCP server, što ga čini kompatibilnim sa svim agentima koji podržavaju Model Context Protocol.

arXiv:2605.04785: AgentTrust presreće pozive alata AI agenata uz 95-97% točnost

Kako AgentTrust odlučuje što dopustiti?

Koliko je sustav točan?

Što znači open-source isporuka?

Česta pitanja

Izvori

Povezane vijesti