arXiv:2605.18414: Promptovi ne štite — MCP proxy s ABAC-om postiže 0% neovlaštenih poziva alata
Novo istraživanje dokazuje da prompt-based restrikcije smanjuju neovlaštene invokacije alata samo 11–18%, dok arhitekturalni MCP proxy s ABAC-om postiže potpunu zaštitu uz manje od 50 ms latencije. Istraživanje je planirano za EMNLP 2026 Industry Track.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživanje objavljeno na arXivu (2605.18414) donosi zabrinjavajući nalaz za sve koji grade autonomne AI agente: upute u promptu nisu dovoljna zaštita kada je u pitanju kontrola pristupa alatima. Jedino arhitekturalno rješenje — posrednički sloj između agenta i alata — može jamčiti pouzdanu zaštitu.
Zašto promptovi ne mogu zaštititi LLM agente od zlouporabe alata?
Model koji u kontekstu vidi popis alata može odabrati i onaj koji nije predviđen za trenutnog korisnika, čak i kad mu je to izričito zabranjeno uputama. Autor Rohith Uppala testirao je to na 150 adversarijalnnih zadataka podijeljenih u četiri kategorije napada, koristeći tri jezična modela — Qwen 2.5 7B, Llama 3.1 8B i Claude Haiku 3.5. Rezultat je jednoznačan: prompt-based restrikcije smanjuju UIR (Unauthorized Invocation Rate — stopu neovlaštenih poziva alata) samo za 11 do 18 postotnih bodova, ostavljajući znatan rezidualni rizik u svakom scenariju.
UIR mjeri koliko često agent uspješno pozove alat kojemu pristup nije odobren. Čak i uz stroge, precizno formulirane upute, modeli povremeno “zaborave” ograničenja ili ih adversarijalni unos navede da ih zaobiđu.
Kako MCP proxy s ABAC-om rješava problem na arhitekturalnoj razini
Predloženo rješenje djeluje na razini MCP-a (Model Context Protocol) — otvorenog standarda koji definira kako AI agenti otkrivaju i pozivaju vanjske alate i usluge. Umjesto da agent izravno komunicira s alatima, uvodi se upravljački MCP proxy koji provodi ABAC (Attribute-Based Access Control) — model kontrole pristupa temeljen na atributima korisnika, alata i konteksta.
Proxy djeluje u dvije točke:
- Otkrivanje alata — neovlašteni alati uklanjaju se iz konteksta već pri listanju, pa model fizički ne može odabrati ono što ne vidi.
- Pozivanje alata — čak i kada bi poziv stigao, proxy ga blokira prije izvršavanja.
Rezultat: UIR pada na 0% uz medijalno kašnjenje ispod 50 ms — što je zanemarivo za većinu produkcijskih sustava.
Što ovo znači za razvoj AI agenata u praksi?
Istraživanje, planirano za EMNLP 2026 Industry Track, šalje jasnu poruku inženjerima koji grade agentne sustave: sigurnosna logika ne smije živjeti samo u promptu. Kao što web aplikacije ne štite API endpointe komentarima u kodu, već middleware slojevima i tokenima, tako i AI agenti trebaju arhitekturalne granice — ne samo verbalne.
Za projekte koji koriste MCP ekosustav (rastuća praksa u 2025./2026.), implementacija upravljačkog proxy sloja s ABAC politikama postaje preporučena mjera sigurnosne higijene, posebno u multi-tenant i enterprise okruženjima gdje različiti korisnici imaju različite ovlasti nad skupovima alata.
Česta pitanja
- Zašto promptovi nisu dovoljni za zaštitu LLM agenata od zlouporabe alata?
- Model koji u kontekstu vidi popis alata može odabrati i neovlašteni alat čak i uz izričitu zabranu u promptu. Testovi na 150 adversarijalnih zadataka pokazuju da prompt restrikcije smanjuju stopu neovlaštenih poziva (UIR) samo za 11–18 postotnih bodova.
- Kako MCP proxy s ABAC-om rješava problem kontrole pristupa alatima?
- Proxy djeluje u dvije točke: pri otkrivanju alata neovlašteni alati se uklanjaju iz konteksta (model ih ne može ni odabrati), a pri pozivanju proxy blokira neovlaštene zahtjeve. Rezultat je UIR od 0% uz medijalno kašnjenje ispod 50 ms.
- Na kojim modelima je istraživanje provedeno i tko je autor?
- Autor Rohith Uppala testirao je pristup na tri modela — Qwen 2.5 7B, Llama 3.1 8B i Claude Haiku 3.5 — koristeći 150 adversarijalnih zadataka u četiri kategorije napada.