arXiv:2605.04785: AgentTrust presreće pozive alata AI agenata uz 95-97% točnost
AgentTrust je open-source runtime sustav koji presreće pozive alata AI agenata — file operacije, SQL upite i shell naredbe — i pred izvršenjem vraća jednu od četiri presude. Na 930 testnih scenarija postiže 95 do 97% točnosti, a oko 93% na shell-obfusciranim napadima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Novi rad objavljen na arXivu predstavlja AgentTrust, runtime sigurnosni sloj koji se postavlja između AI agenta i njegovih alata te u realnom vremenu prosuđuje svaki poziv prije nego što se izvrši. Sustav cilja na ranjivosti koje se pojavljuju kada agenti dobivaju širok pristup operativnom sustavu i vanjskim servisima.
Kako AgentTrust odlučuje što dopustiti?
Za svaki dolazni poziv alata AgentTrust vraća jednu od četiri presude: dozvoli, upozori, blokiraj ili pošalji na pregled. Arhitektura kombinira shell deobfuscation normalizator, SafeFix komponentu koja sugerira sigurnije alternative, RiskChain detektor za višekoračne lance napada i cache-aware LLM-as-Judge sloj za dvojbene ulaze. Pokriveni alati uključuju operacije s datotekama, SQL upite i shell naredbe, što su tri najčešće površine napada u produkcijskim agentskim sustavima.
Koliko je sustav točan?
Evaluacija je provedena na ukupno 930 scenarija — 300 internih kroz šest kategorija rizika i 630 nezavisno konstruiranih adversarijalnih situacija iz stvarnog svijeta. Produkcijski ruleset postiže 95,0% točnosti presude na internom benchmarku i 73,7% točnosti rizičnog stupnja uz latenciju u rasponu nekoliko milisekundi. Na 630-scenarijskom skupu AgentTrust dostiže 96,7% točnosti, uključujući oko 93% točnosti na shell-obfusciranim payloadima koji obično zaobilaze jednostavnije filtre.
Što znači open-source isporuka?
Autor (Chenglin Yang) objavio je AgentTrust pod AGPL-3.0 licencom, što obvezuje izvedene radove na isto open-source dijeljenje. Sustav se isporučuje kao MCP server (Model Context Protocol — otvoreni standard za pozivanje vanjskih alata iz LLM-ova), pa ga je moguće priključiti na bilo kojeg agenta koji podržava MCP bez prepravki agentskog koda. Time se snižava prag za uvođenje runtime kontrole u postojeće agentske workflowe.
Česta pitanja
- Što presreće AgentTrust?
- Sustav presreće pozive alata AI agenata pred njihovim izvršenjem — konkretno file operacije, SQL upite i shell naredbe — i u realnom vremenu odlučuje hoće li ih dopustiti ili zaustaviti.
- Koje presude AgentTrust vraća?
- Četiri moguće presude: dozvoli (allow), upozori (warn), blokiraj (block) i pošalji na ljudski pregled (review). Dodatno postoji SafeFix komponenta koja predlaže sigurnije alternative.
- Pod kojom je licencom dostupan?
- Sustav je objavljen pod AGPL-3.0 open-source licencom i isporučuje se kao MCP server, što ga čini kompatibilnim sa svim agentima koji podržavaju Model Context Protocol.
Izvori
Povezane vijesti
arXiv:2605.04019: automatizirani red teaming agent postiže 85 % uspjeha protiv Mete Llama Scout uz 45+ napada i 450+ transformacija
GitHub: Secret scanning kroz MCP server u GA — AI agenti detektiraju credentiale prije commita
ArXiv: Vizualne slike zaobilaze sigurnosne filtre vision-language modela u 40,9 % slučajeva, otkrivaju autori na ICML 2026