🔴 🛡️ Sigurnost subota, 2. svibnja 2026. · 3 min čitanja ·

MCPHunt: prvi benchmark koji mjeri curenje vjerodajnica između granica povjerenja u multi-server MCP agentima — stope 11,5–41,3 %

Editorial illustration: digitalna mreža servera s crvenim sigurnosnim linijama propagacije podataka

MCPHunt je prvi kontrolirani benchmark koji mjeri curenje vjerodajnica kroz granice povjerenja u multi-server MCP (Model Context Protocol) agentskim sustavima. Na 3 615 tragova od 5 modela, 147 scenarija i 9 obitelji mehanizama, stope politički-narušavajuće propagacije iznose 11,5–41,3 %. Prompt-mitigacije reduciraju kršenja do 97 % uz 80,5 % zadržane korisnosti, ali su ovisne o sposobnosti praćenja uputa modela.

Istraživači su predstavili MCPHunt, prvi kontrolirani benchmark namijenjen izolaciji nehotičnog curenja vjerodajnica između granica povjerenja u multi-server MCP agentskim sustavima. MCP (Model Context Protocol) je otvoreni standard koji LLM-ovima omogućuje pristup vanjskim alatima i podacima preko više neovisnih servera; problem nastaje kada kombinacija read i write alata, svaki s legitimnim dozvolama, neželjeno prenese osjetljive podatke iz jednog konteksta u drugi.

Što MCPHunt mjeri?

MCPHunt mjeri propagaciju vjerodajnica koja krši politiku redakcije, čak i kada agent na pojedinoj razini djeluje unutar dodijeljenih ovlasti. Benchmark obuhvaća 3 615 tragova glavne evaluacije preko 5 različitih modela, 147 scenarija i 9 obitelji mehanizama kojima se podaci mogu nehotice premjestiti.

Centralna metrika je stopa “politički-narušavajuće propagacije” — koliko često agent prenese vjerodajnicu preko trust boundary unatoč postojećim opcijama redakcije ili sigurnijih alternativa. Rezultati pokazuju raspon 11,5–41,3 % ovisno o modelu, s najjačom koncentracijom kršenja u browser-posredovanim tokovima podataka, gdje agent dohvaća stranicu i prosljeđuje rezultat drugom serveru.

Kako rade kontrole?

Tri metodološka stupa daju benchmark-u objektivnost:

  1. Canary-based taint tracking sažima detekciju curenja na egzaktno string matching — agent koji propusti označeni canary token preko granice se zabilježi bez subjektivne prosudbe.
  2. Environment-controlled coverage kombinira rizične, benigne i hard-negative scenarije kako bi se isključili lažno pozitivni i validirao integritet pipeline-a.
  3. CRS stratifikacija (Credential Routing Stratification) razdvaja propagaciju koja je nužna za izvršenje zadatka od one koja krši politiku — bez ovog razdvajanja nije moguće pošteno usporediti modele.

Koliko pomažu prompt-obrane?

Prompt-based mitigacije postižu do 97 % redukcije kršenja uz 80,5 % zadržane korisnosti — naizgled snažan rezultat. Ali autori odmah ograničavaju zaključak: učinak strogo korelira sa sposobnošću praćenja uputa modela, što znači da slabiji modeli ostaju ranjivi i s istim mitigacijskim promptom.

Hard-negative kontrole pokazuju da curenje ne zahtijeva produkcijski format vjerodajnica — dovoljan je prompt-vođen cross-boundary tok podataka da se vrijednost prenese, što potvrđuje da je ranjivost strukturna, ne implementacijska. Zaključak rada je jasan: samo prompt-razina obrane nije dovoljna; potrebne su mehaničke kontrole na razini protokola i runtime-a koje fizički sprječavaju nedopušteni put podataka.

Zašto je ovo važno?

MCP je u 2025. i 2026. postao de facto standard za povezivanje LLM agenata s alatima — od baza znanja preko email klijenata do CI/CD sustava. Svaki novi MCP server proširuje napadnu površinu. MCPHunt prvi put kvantificira sustav koji do sada nije imao standardiziranu sigurnosnu metriku, i otvara prostor za alate koji će analitičare zaštititi prije nego što agentski radni tokovi postanu dominantna integracijska metoda.

Česta pitanja

Što je MCPHunt?
Prvi kontrolirani benchmark koji izolira nehotično curenje vjerodajnica između trust boundary-a u multi-server MCP agentskim sustavima, mjereći koliko često se osjetljivi podaci prenose preko granice unatoč postojećim opcijama redakcije.
Koliko su visoke stope curenja podataka?
Politički-narušavajuća propagacija iznosi 11,5–41,3 % kroz 3 615 tragova s 5 različitih modela. Browser-posredovani tokovi podataka pokazuju najveću koncentraciju kršenja.
Mogu li prompt-based obrane riješiti problem?
Djelomično — reduciraju kršenja do 97 % uz 80,5 % zadržane korisnosti, ali učinak korelira s instruction-following sposobnošću modela. Autori zaključuju da prompt-razina obrane sama nije dovoljna jer je ranjivost strukturna.
🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.