🟡 🛡️ Sigurnost Objavljeno: · 2 min čitanja ·

arXiv:2605.18414: Promptovi ne štite — MCP proxy s ABAC-om postiže 0% neovlaštenih poziva alata

arXiv:2605.18414 ↗

Editorial illustration:

Novo istraživanje dokazuje da prompt-based restrikcije smanjuju neovlaštene invokacije alata samo 11–18%, dok arhitekturalni MCP proxy s ABAC-om postiže potpunu zaštitu uz manje od 50 ms latencije. Istraživanje je planirano za EMNLP 2026 Industry Track.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Istraživanje objavljeno na arXivu (2605.18414) donosi zabrinjavajući nalaz za sve koji grade autonomne AI agente: upute u promptu nisu dovoljna zaštita kada je u pitanju kontrola pristupa alatima. Jedino arhitekturalno rješenje — posrednički sloj između agenta i alata — može jamčiti pouzdanu zaštitu.

Zašto promptovi ne mogu zaštititi LLM agente od zlouporabe alata?

Model koji u kontekstu vidi popis alata može odabrati i onaj koji nije predviđen za trenutnog korisnika, čak i kad mu je to izričito zabranjeno uputama. Autor Rohith Uppala testirao je to na 150 adversarijalnnih zadataka podijeljenih u četiri kategorije napada, koristeći tri jezična modela — Qwen 2.5 7B, Llama 3.1 8B i Claude Haiku 3.5. Rezultat je jednoznačan: prompt-based restrikcije smanjuju UIR (Unauthorized Invocation Rate — stopu neovlaštenih poziva alata) samo za 11 do 18 postotnih bodova, ostavljajući znatan rezidualni rizik u svakom scenariju.

UIR mjeri koliko često agent uspješno pozove alat kojemu pristup nije odobren. Čak i uz stroge, precizno formulirane upute, modeli povremeno “zaborave” ograničenja ili ih adversarijalni unos navede da ih zaobiđu.

Kako MCP proxy s ABAC-om rješava problem na arhitekturalnoj razini

Predloženo rješenje djeluje na razini MCP-a (Model Context Protocol) — otvorenog standarda koji definira kako AI agenti otkrivaju i pozivaju vanjske alate i usluge. Umjesto da agent izravno komunicira s alatima, uvodi se upravljački MCP proxy koji provodi ABAC (Attribute-Based Access Control) — model kontrole pristupa temeljen na atributima korisnika, alata i konteksta.

Proxy djeluje u dvije točke:

  1. Otkrivanje alata — neovlašteni alati uklanjaju se iz konteksta već pri listanju, pa model fizički ne može odabrati ono što ne vidi.
  2. Pozivanje alata — čak i kada bi poziv stigao, proxy ga blokira prije izvršavanja.

Rezultat: UIR pada na 0% uz medijalno kašnjenje ispod 50 ms — što je zanemarivo za većinu produkcijskih sustava.

Što ovo znači za razvoj AI agenata u praksi?

Istraživanje, planirano za EMNLP 2026 Industry Track, šalje jasnu poruku inženjerima koji grade agentne sustave: sigurnosna logika ne smije živjeti samo u promptu. Kao što web aplikacije ne štite API endpointe komentarima u kodu, već middleware slojevima i tokenima, tako i AI agenti trebaju arhitekturalne granice — ne samo verbalne.

Za projekte koji koriste MCP ekosustav (rastuća praksa u 2025./2026.), implementacija upravljačkog proxy sloja s ABAC politikama postaje preporučena mjera sigurnosne higijene, posebno u multi-tenant i enterprise okruženjima gdje različiti korisnici imaju različite ovlasti nad skupovima alata.

Česta pitanja

Zašto promptovi nisu dovoljni za zaštitu LLM agenata od zlouporabe alata?
Model koji u kontekstu vidi popis alata može odabrati i neovlašteni alat čak i uz izričitu zabranu u promptu. Testovi na 150 adversarijalnih zadataka pokazuju da prompt restrikcije smanjuju stopu neovlaštenih poziva (UIR) samo za 11–18 postotnih bodova.
Kako MCP proxy s ABAC-om rješava problem kontrole pristupa alatima?
Proxy djeluje u dvije točke: pri otkrivanju alata neovlašteni alati se uklanjaju iz konteksta (model ih ne može ni odabrati), a pri pozivanju proxy blokira neovlaštene zahtjeve. Rezultat je UIR od 0% uz medijalno kašnjenje ispod 50 ms.
Na kojim modelima je istraživanje provedeno i tko je autor?
Autor Rohith Uppala testirao je pristup na tri modela — Qwen 2.5 7B, Llama 3.1 8B i Claude Haiku 3.5 — koristeći 150 adversarijalnih zadataka u četiri kategorije napada.