Što je MCP Tax i zašto je problem?

MCP Tax je naziv za skriveni trošak od 10 do 60 tisuća tokena po turnu koji se pojavljuje jer eager schema injection ubacuje cijele JSON sheme svih registriranih alata u svaki poziv modela. To napuhuje KV cache i degradira kvalitetu rezoniranja kad iskorištenje konteksta prijeđe kritični prag od oko 70 posto.

Koje tri tehnike kombinira Tool Attention?

Tool Attention kombinira Intent Schema Overlap (ISO) Score koji pomoću embedding sličnosti identificira relevantne alate, State-Aware Gating Function koji provjerava preduvjete i access scope, te Two-Phase Lazy Schema Loader koji drži kompaktne sažetke u kontekstu i promovira pune JSON sheme samo za top-k najprioritetnijih alata.

Kakvi su konkretni rezultati na benchmarku?

Na simuliranoj okolini s 120 alata na šest MCP servera, Tool Attention je smanjio potrošnju tokena po turnu s 47.300 na 2.400, što je 95 posto redukcije. Iskoristivost konteksta skočila je s 24 na 91 posto. Autori napominju da su metrike izvedene iz izmjerenih token brojeva i objavljene telemetrije, a ne iz live LLM agent testiranja.

Tool Attention: 95% manje tokena u MCP agentic workflowu

Istraživači Anuj Sadani i Deepak Kumar objavili su 23. travnja 2026. na ArXivu rad pod naslovom “Tool Attention Is All You Need” (arXiv:2604.21816), u kojem identificiraju i rješavaju ozbiljan strukturni problem Model Context Protokola (MCP) — takozvani MCP Tax. Radi se o skrivenom trošku od 10 do 60 tisuća tokena po turnu koji se u tipičnim multi-server MCP deploymentima jednostavno “troši” na ubacivanje shema alata u svaki poziv modela.

Rad dolazi u trenutku eksplozije MCP integracija u enterprise okruženjima, gdje jedan agentski sustav često raspolaže s desecima alata preko više servera istovremeno. Takve konfiguracije dosad su imale skrivenu cijenu koja je sabotirala i brzinu i kvalitetu rezoniranja.

Što je točno MCP Tax?

Autori identificiraju problem kao eager schema injection — standardni MCP obrazac u kojem se cijeli JSON schema opis svakog registriranog alata ubacuje u kontekst pri svakom pozivu modela, čak i kad model neće koristiti 95 posto njih. Token overhead kreće se od 10.000 do 60.000 tokena po turnu, ovisno o broju servera i složenosti shema.

Posljedice su dvostruke. Prvo, KV cache se napuhuje i inferencija postaje sporija i skuplja. Drugo, kada iskorištenje konteksta prijeđe kritični prag od oko 70 posto, kvaliteta rezoniranja značajno pada, što je dobro dokumentirano u literaturi o “context rot” fenomenu.

Kako Tool Attention rješava problem?

Predloženi pristup je middleware sloj koji sjedi između agenta i MCP servera te kombinira tri komplementarne komponente:

Intent Schema Overlap (ISO) Score — koristi sentence embedding modele da izmjeri semantičku sličnost između korisničkog upita i opisa svakog alata, pa rangira alate po relevantnosti.
State-Aware Gating Function — provjerava preduvjete i access scope prije ubacivanja alata u kontekst, tako da se alati koji traže autentifikaciju ili specifično stanje uopće ne pojavljuju dok ti uvjeti nisu ispunjeni.
Two-Phase Lazy Schema Loader — u kontekstu drži samo kompaktni summary pool svih dostupnih alata, a puni JSON schema opisi se promoviraju tek za top-k alata s najvišim ISO score-om.

Ovaj pristup odgovara ponašanju iskusnog developera koji u glavi drži samo popis “što mogu”, a detalje API-ja čita tek kad zna da će alat pozvati.

Koliko se toga uštedi u praksi?

Autori su proveli evaluaciju na simuliranoj okolini s 120 alata raspoređenih na šest MCP servera, kalibriranoj prema realnim produkcijskim deploymentima. Rezultati su dramatični: potrošnja tokena po turnu pala je s 47.300 na 2.400 tokena, što odgovara redukciji od 95 posto. Iskorištenost konteksta podignuta je s 24 na 91 posto, što znači da agent sada može obrađivati složenije povijesti razgovora bez gubitka rezoning kvalitete.

Autori eksplicitno napominju da su projicirane metrike izvedene iz izmjerenih token brojeva kombiniranih s objavljenom telemetrijom, a ne iz live LLM agent testiranja. To je bitno ograničenje koje treba imati na umu — stvarna redukcija u produkciji ovisi o kvaliteti embedding modela za ISO score i realnosti kalibracije.

Što ovo znači za multi-agent sustave?

Ključni zaključak rada je da je “protokol-level efficiency, a ne sirova duljina konteksta, vezujuće ograničenje” skalabilnih agentskih sustava. Drugim riječima, modeli s milijun tokena konteksta neće riješiti problem ako se 60 tisuća tokena troši uzalud po svakom turnu.

Za hrvatske timove koji grade multi-agent sustave nad Claudeom, GPT-om ili open-source modelima, ovaj rad sugerira konkretne arhitektonske promjene: uvesti middleware sloj koji radi lazy loading shema, implementirati KV cache sharing između uzastopnih poziva istog agenta i mjeriti actual context utilization kao primarnu metriku umjesto fokusa na context window capacity. Kod je dostupan na GitHubu u repozitoriju referenciranom u radu.

arXiv:2604.21816: 'Tool Attention Is All You Need' eliminira MCP Tax — 95 posto redukcija tokena po turnu agentic workflowa

Što je točno MCP Tax?

Kako Tool Attention rješava problem?

Koliko se toga uštedi u praksi?

Što ovo znači za multi-agent sustave?

Izvori

Povezane vijesti