arXiv:2604.21816: 'Tool Attention Is All You Need' eliminira MCP Tax — 95 posto redukcija tokena po turnu agentic workflowa
Istraživači Anuj Sadani i Deepak Kumar objavili su 23. travnja 2026. na ArXivu rad koji rješava takozvani MCP Tax — eager schema injection koji troši 10 do 60 tisuća tokena po turnu. Njihov Tool Attention pristup smanjuje potrošnju za 95 posto i podiže iskoristivost konteksta s 24 na 91 posto.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživači Anuj Sadani i Deepak Kumar objavili su 23. travnja 2026. na ArXivu rad pod naslovom “Tool Attention Is All You Need” (arXiv:2604.21816), u kojem identificiraju i rješavaju ozbiljan strukturni problem Model Context Protokola (MCP) — takozvani MCP Tax. Radi se o skrivenom trošku od 10 do 60 tisuća tokena po turnu koji se u tipičnim multi-server MCP deploymentima jednostavno “troši” na ubacivanje shema alata u svaki poziv modela.
Rad dolazi u trenutku eksplozije MCP integracija u enterprise okruženjima, gdje jedan agentski sustav često raspolaže s desecima alata preko više servera istovremeno. Takve konfiguracije dosad su imale skrivenu cijenu koja je sabotirala i brzinu i kvalitetu rezoniranja.
Što je točno MCP Tax?
Autori identificiraju problem kao eager schema injection — standardni MCP obrazac u kojem se cijeli JSON schema opis svakog registriranog alata ubacuje u kontekst pri svakom pozivu modela, čak i kad model neće koristiti 95 posto njih. Token overhead kreće se od 10.000 do 60.000 tokena po turnu, ovisno o broju servera i složenosti shema.
Posljedice su dvostruke. Prvo, KV cache se napuhuje i inferencija postaje sporija i skuplja. Drugo, kada iskorištenje konteksta prijeđe kritični prag od oko 70 posto, kvaliteta rezoniranja značajno pada, što je dobro dokumentirano u literaturi o “context rot” fenomenu.
Kako Tool Attention rješava problem?
Predloženi pristup je middleware sloj koji sjedi između agenta i MCP servera te kombinira tri komplementarne komponente:
- Intent Schema Overlap (ISO) Score — koristi sentence embedding modele da izmjeri semantičku sličnost između korisničkog upita i opisa svakog alata, pa rangira alate po relevantnosti.
- State-Aware Gating Function — provjerava preduvjete i access scope prije ubacivanja alata u kontekst, tako da se alati koji traže autentifikaciju ili specifično stanje uopće ne pojavljuju dok ti uvjeti nisu ispunjeni.
- Two-Phase Lazy Schema Loader — u kontekstu drži samo kompaktni summary pool svih dostupnih alata, a puni JSON schema opisi se promoviraju tek za top-k alata s najvišim ISO score-om.
Ovaj pristup odgovara ponašanju iskusnog developera koji u glavi drži samo popis “što mogu”, a detalje API-ja čita tek kad zna da će alat pozvati.
Koliko se toga uštedi u praksi?
Autori su proveli evaluaciju na simuliranoj okolini s 120 alata raspoređenih na šest MCP servera, kalibriranoj prema realnim produkcijskim deploymentima. Rezultati su dramatični: potrošnja tokena po turnu pala je s 47.300 na 2.400 tokena, što odgovara redukciji od 95 posto. Iskorištenost konteksta podignuta je s 24 na 91 posto, što znači da agent sada može obrađivati složenije povijesti razgovora bez gubitka rezoning kvalitete.
Autori eksplicitno napominju da su projicirane metrike izvedene iz izmjerenih token brojeva kombiniranih s objavljenom telemetrijom, a ne iz live LLM agent testiranja. To je bitno ograničenje koje treba imati na umu — stvarna redukcija u produkciji ovisi o kvaliteti embedding modela za ISO score i realnosti kalibracije.
Što ovo znači za multi-agent sustave?
Ključni zaključak rada je da je “protokol-level efficiency, a ne sirova duljina konteksta, vezujuće ograničenje” skalabilnih agentskih sustava. Drugim riječima, modeli s milijun tokena konteksta neće riješiti problem ako se 60 tisuća tokena troši uzalud po svakom turnu.
Za hrvatske timove koji grade multi-agent sustave nad Claudeom, GPT-om ili open-source modelima, ovaj rad sugerira konkretne arhitektonske promjene: uvesti middleware sloj koji radi lazy loading shema, implementirati KV cache sharing između uzastopnih poziva istog agenta i mjeriti actual context utilization kao primarnu metriku umjesto fokusa na context window capacity. Kod je dostupan na GitHubu u repozitoriju referenciranom u radu.
Česta pitanja
- Što je MCP Tax i zašto je problem?
- MCP Tax je naziv za skriveni trošak od 10 do 60 tisuća tokena po turnu koji se pojavljuje jer eager schema injection ubacuje cijele JSON sheme svih registriranih alata u svaki poziv modela. To napuhuje KV cache i degradira kvalitetu rezoniranja kad iskorištenje konteksta prijeđe kritični prag od oko 70 posto.
- Koje tri tehnike kombinira Tool Attention?
- Tool Attention kombinira Intent Schema Overlap (ISO) Score koji pomoću embedding sličnosti identificira relevantne alate, State-Aware Gating Function koji provjerava preduvjete i access scope, te Two-Phase Lazy Schema Loader koji drži kompaktne sažetke u kontekstu i promovira pune JSON sheme samo za top-k najprioritetnijih alata.
- Kakvi su konkretni rezultati na benchmarku?
- Na simuliranoj okolini s 120 alata na šest MCP servera, Tool Attention je smanjio potrošnju tokena po turnu s 47.300 na 2.400, što je 95 posto redukcije. Iskoristivost konteksta skočila je s 24 na 91 posto. Autori napominju da su metrike izvedene iz izmjerenih token brojeva i objavljene telemetrije, a ne iz live LLM agent testiranja.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije