arXiv:2604.21816: 'Tool Attention Is All You Need' eliminira MCP Tax — 95 posto redukcija tokena po turnu agentic workflowa
Zašto je bitno
Istraživači Anuj Sadani i Deepak Kumar objavili su 23. travnja 2026. na ArXivu rad koji rješava takozvani MCP Tax — eager schema injection koji troši 10 do 60 tisuća tokena po turnu. Njihov Tool Attention pristup smanjuje potrošnju za 95 posto i podiže iskoristivost konteksta s 24 na 91 posto.
Istraživači Anuj Sadani i Deepak Kumar objavili su 23. travnja 2026. na ArXivu rad pod naslovom “Tool Attention Is All You Need” (arXiv:2604.21816), u kojem identificiraju i rješavaju ozbiljan strukturni problem Model Context Protokola (MCP) — takozvani MCP Tax. Radi se o skrivenom trošku od 10 do 60 tisuća tokena po turnu koji se u tipičnim multi-server MCP deploymentima jednostavno “troši” na ubacivanje shema alata u svaki poziv modela.
Rad dolazi u trenutku eksplozije MCP integracija u enterprise okruženjima, gdje jedan agentski sustav često raspolaže s desecima alata preko više servera istovremeno. Takve konfiguracije dosad su imale skrivenu cijenu koja je sabotirala i brzinu i kvalitetu rezoniranja.
Što je točno MCP Tax?
Autori identificiraju problem kao eager schema injection — standardni MCP obrazac u kojem se cijeli JSON schema opis svakog registriranog alata ubacuje u kontekst pri svakom pozivu modela, čak i kad model neće koristiti 95 posto njih. Token overhead kreće se od 10.000 do 60.000 tokena po turnu, ovisno o broju servera i složenosti shema.
Posljedice su dvostruke. Prvo, KV cache se napuhuje i inferencija postaje sporija i skuplja. Drugo, kada iskorištenje konteksta prijeđe kritični prag od oko 70 posto, kvaliteta rezoniranja značajno pada, što je dobro dokumentirano u literaturi o “context rot” fenomenu.
Kako Tool Attention rješava problem?
Predloženi pristup je middleware sloj koji sjedi između agenta i MCP servera te kombinira tri komplementarne komponente:
- Intent Schema Overlap (ISO) Score — koristi sentence embedding modele da izmjeri semantičku sličnost između korisničkog upita i opisa svakog alata, pa rangira alate po relevantnosti.
- State-Aware Gating Function — provjerava preduvjete i access scope prije ubacivanja alata u kontekst, tako da se alati koji traže autentifikaciju ili specifično stanje uopće ne pojavljuju dok ti uvjeti nisu ispunjeni.
- Two-Phase Lazy Schema Loader — u kontekstu drži samo kompaktni summary pool svih dostupnih alata, a puni JSON schema opisi se promoviraju tek za top-k alata s najvišim ISO score-om.
Ovaj pristup odgovara ponašanju iskusnog developera koji u glavi drži samo popis “što mogu”, a detalje API-ja čita tek kad zna da će alat pozvati.
Koliko se toga uštedi u praksi?
Autori su proveli evaluaciju na simuliranoj okolini s 120 alata raspoređenih na šest MCP servera, kalibriranoj prema realnim produkcijskim deploymentima. Rezultati su dramatični: potrošnja tokena po turnu pala je s 47.300 na 2.400 tokena, što odgovara redukciji od 95 posto. Iskorištenost konteksta podignuta je s 24 na 91 posto, što znači da agent sada može obrađivati složenije povijesti razgovora bez gubitka rezoning kvalitete.
Autori eksplicitno napominju da su projicirane metrike izvedene iz izmjerenih token brojeva kombiniranih s objavljenom telemetrijom, a ne iz live LLM agent testiranja. To je bitno ograničenje koje treba imati na umu — stvarna redukcija u produkciji ovisi o kvaliteti embedding modela za ISO score i realnosti kalibracije.
Što ovo znači za multi-agent sustave?
Ključni zaključak rada je da je “protokol-level efficiency, a ne sirova duljina konteksta, vezujuće ograničenje” skalabilnih agentskih sustava. Drugim riječima, modeli s milijun tokena konteksta neće riješiti problem ako se 60 tisuća tokena troši uzalud po svakom turnu.
Za hrvatske timove koji grade multi-agent sustave nad Claudeom, GPT-om ili open-source modelima, ovaj rad sugerira konkretne arhitektonske promjene: uvesti middleware sloj koji radi lazy loading shema, implementirati KV cache sharing između uzastopnih poziva istog agenta i mjeriti actual context utilization kao primarnu metriku umjesto fokusa na context window capacity. Kod je dostupan na GitHubu u repozitoriju referenciranom u radu.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
arXiv:2604.21910: agentic AI automatizira znanstveni workflow s 83 % točnosti, 92 % manje data transfera i $0.001 po upitu
arXiv:2604.22748: Survey 42 autora uvodi 'levels × laws' taksonomiju za world modele u AI agentima — sinteza 400+ radova
arXiv:2604.22452: Superminds Test pokazuje da kolektivna inteligencija ne nastaje sama u društvu od 2 milijuna AI agenata