arXiv:2604.21816: 'Tool Attention Is All You Need' eliminira MCP Tax — 95 posto redukcija tokena po turnu agentic workflowa
Zašto je bitno
Istraživači Anuj Sadani i Deepak Kumar objavili su 23. travnja 2026. na ArXivu rad koji rješava takozvani MCP Tax — eager schema injection koji troši 10 do 60 tisuća tokena po turnu. Njihov Tool Attention pristup smanjuje potrošnju za 95 posto i podiže iskoristivost konteksta s 24 na 91 posto.
Istraživači Anuj Sadani i Deepak Kumar objavili su 23. travnja 2026. na ArXivu rad pod naslovom “Tool Attention Is All You Need” (arXiv:2604.21816), u kojem identificiraju i rješavaju ozbiljan strukturni problem Model Context Protokola (MCP) — takozvani MCP Tax. Radi se o skrivenom trošku od 10 do 60 tisuća tokena po turnu koji se u tipičnim multi-server MCP deploymentima jednostavno “troši” na ubacivanje shema alata u svaki poziv modela.
Rad dolazi u trenutku eksplozije MCP integracija u enterprise okruženjima, gdje jedan agentski sustav često raspolaže s desecima alata preko više servera istovremeno. Takve konfiguracije dosad su imale skrivenu cijenu koja je sabotirala i brzinu i kvalitetu rezoniranja.
Što je točno MCP Tax?
Autori identificiraju problem kao eager schema injection — standardni MCP obrazac u kojem se cijeli JSON schema opis svakog registriranog alata ubacuje u kontekst pri svakom pozivu modela, čak i kad model neće koristiti 95 posto njih. Token overhead kreće se od 10.000 do 60.000 tokena po turnu, ovisno o broju servera i složenosti shema.
Posljedice su dvostruke. Prvo, KV cache se napuhuje i inferencija postaje sporija i skuplja. Drugo, kada iskorištenje konteksta prijeđe kritični prag od oko 70 posto, kvaliteta rezoniranja značajno pada, što je dobro dokumentirano u literaturi o “context rot” fenomenu.
Kako Tool Attention rješava problem?
Predloženi pristup je middleware sloj koji sjedi između agenta i MCP servera te kombinira tri komplementarne komponente:
- Intent Schema Overlap (ISO) Score — koristi sentence embedding modele da izmjeri semantičku sličnost između korisničkog upita i opisa svakog alata, pa rangira alate po relevantnosti.
- State-Aware Gating Function — provjerava preduvjete i access scope prije ubacivanja alata u kontekst, tako da se alati koji traže autentifikaciju ili specifično stanje uopće ne pojavljuju dok ti uvjeti nisu ispunjeni.
- Two-Phase Lazy Schema Loader — u kontekstu drži samo kompaktni summary pool svih dostupnih alata, a puni JSON schema opisi se promoviraju tek za top-k alata s najvišim ISO score-om.
Ovaj pristup odgovara ponašanju iskusnog developera koji u glavi drži samo popis “što mogu”, a detalje API-ja čita tek kad zna da će alat pozvati.
Koliko se toga uštedi u praksi?
Autori su proveli evaluaciju na simuliranoj okolini s 120 alata raspoređenih na šest MCP servera, kalibriranoj prema realnim produkcijskim deploymentima. Rezultati su dramatični: potrošnja tokena po turnu pala je s 47.300 na 2.400 tokena, što odgovara redukciji od 95 posto. Iskorištenost konteksta podignuta je s 24 na 91 posto, što znači da agent sada može obrađivati složenije povijesti razgovora bez gubitka rezoning kvalitete.
Autori eksplicitno napominju da su projicirane metrike izvedene iz izmjerenih token brojeva kombiniranih s objavljenom telemetrijom, a ne iz live LLM agent testiranja. To je bitno ograničenje koje treba imati na umu — stvarna redukcija u produkciji ovisi o kvaliteti embedding modela za ISO score i realnosti kalibracije.
Što ovo znači za multi-agent sustave?
Ključni zaključak rada je da je “protokol-level efficiency, a ne sirova duljina konteksta, vezujuće ograničenje” skalabilnih agentskih sustava. Drugim riječima, modeli s milijun tokena konteksta neće riješiti problem ako se 60 tisuća tokena troši uzalud po svakom turnu.
Za hrvatske timove koji grade multi-agent sustave nad Claudeom, GPT-om ili open-source modelima, ovaj rad sugerira konkretne arhitektonske promjene: uvesti middleware sloj koji radi lazy loading shema, implementirati KV cache sharing između uzastopnih poziva istog agenta i mjeriti actual context utilization kao primarnu metriku umjesto fokusa na context window capacity. Kod je dostupan na GitHubu u repozitoriju referenciranom u radu.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
arXiv:2604.24697: SciCrafter pokazuje da GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 plateauiraju na ~26% u Minecraft discovery-to-application testu
AWS objavio kako graditi Strands Agente sa SageMaker AI modelima i MLflow observability: SageMakerAIModel provider, autolog tracing i A/B testiranje varijanti
OpenAI objavio Symphony: open-source specifikaciju za orkestraciju Codex agenata koja issue trackere pretvara u 'always-on' inženjerske sustave