🟢 🤝 Agenti ponedjeljak, 4. svibnja 2026. · 2 min čitanja ·

ArXiv: skriveni trošak alata u LLM agentima — "tool-use tax" smanjuje točnost čak i kad alati pomažu

Editorial illustration: ArXiv: skriveni trošak alata u LLM agentima i tool-use tax

Istraživači su pokazali da pozivanje alata u LLM agentima uvodi skriveni trošak — tzv. "tool-use tax" — koji nastaje zbog formatiranja poziva i overhead-a protokola. Faktoriziranom intervencijskom okvirom izoliraju tri komponente troška i uvode G-STEP gate koji djelomično ublažava gubitke bez promjene modela.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Tim istraživača (Kaituo Zhang, Zhen Xiong, Mingyu Zhong, Zhimeng Jiang, Zhouyuan Yuan, Zhecheng Li, Ying Lin) objavio je 30. travnja 2026. rad koji dovodi u pitanje uvriježenu pretpostavku: da li pozivanje alata (engl. tool use) uvijek poboljšava performanse LLM agenata?

Što je “tool-use tax”?

Tool-use tax je pojam koji autori uvode za skriveni trošak koji nastaje kada agent poziva alat. Trošak nije vezan uz sam alat — nego uz protokol pozivanja: formatiranje zahtjeva, parsiranje odgovora i overhead koji dolazi s tim procesom. U prisutnosti semantičkih distraktora (nebitnih ali površinski relevantnih informacija u upitu), taj overhead može poništiti korist koju alat donosi.

Ukratko: alat može dati točan rezultat, ali model ga ne koristi ispravno jer ga protokol ometa.

Kako istraživači mjere trošak?

Autori razvijaju Factorized Intervention Framework koji izolira tri odvojene komponente:

  1. Trošak formatiranja prompta — koliko sam format poziva alata zbunjuje model
  2. Overhead tool-calling protokola — koliko komunikacijski sloj degradira zaključivanje
  3. Stvarni dobitak izvršavanja alata — što model dobiva od konkretnog rezultata alata

Ta dekompozicija otkriva da benefit alata često ne kompenzira prva dva troška — što znači da nativni chain-of-thought (CoT) ponekad nadmašuje agenta s alatima.

Kako G-STEP ublažava problem?

Predloženo rješenje je G-STEP (inference-time gate) — lagani mehanizam koji na razini zaključivanja odlučuje treba li agent uopće pozvati alat za dani upit. Time se izbjegava nepotreban overhead kad model može sam odgovoriti dovoljno točno.

G-STEP donosi djelomičan oporavak performansi bez fine-tuninga modela. Autori ipak naglašavaju da potpuno rješenje zahtijeva unapređenje temeljnih sposobnosti modela za interakciju s alatima — ne samo optimizaciju protokola.

Zašto je ovo važno za razvoj agenata?

Industrija već intenzivno razvija tool-augmented agente: od OpenAI function calling-a do Anthropic MCP-a i Google-ovog agent frameworka. Ovaj rad upozorava da sama dostupnost alata ne garantira bolje rezultate — design protokola i to kada se alat poziva jednako su kritični. Za praktičare: evaluacija agenta bez izolacije ovih troškova može dati lažno optimistične zaključke.

Česta pitanja

Što je tool-use tax u LLM agentima?
Tool-use tax je skupni naziv za degradaciju performansi koja nastaje kada LLM agent koristi alate — čak i kad alat daje točan rezultat, troškovi formatiranja poziva i protokola mogu poništiti taj dobitak, osobito u prisutnosti semantičkih distraktora u upitu.
Kako istraživači razdvajaju troškove od dobiti alata?
Uvode Factorized Intervention Framework koji izolira tri komponente: (1) trošak formatiranja prompta za poziv alata, (2) overhead tool-calling protokola, i (3) stvarni dobitak od izvršavanja alata. Ta dekompozicija otkriva gdje dolazi do gubitka performansi.
Što je G-STEP i kako pomaže?
G-STEP je lagani inference-time gate koji odlučuje kada agent treba pozvati alat, a kada je bolje koristiti nativno zaključivanje (chain-of-thought). Donosi djelomičan oporavak performansi, ali autori naglašavaju da potpuno rješenje zahtijeva unapređenje temeljnih sposobnosti modela.