ArXiv: LLM agenti pogrešno procjenjuju kad trebaju alate

Istraživači Max Planck Institute for Software Systems i suradnici objavili su okvir koji evaluira tool-calling odluke LLM agenata kroz tri dimenzije: nužnost, korist i prihvatljivost troška. Eksperimenti na šest modela i tri zadatka pokazuju značajan razlikom između onoga što model misli da mu treba i onoga što stvarno povećava točnost — što direktno utječe na cijenu i pouzdanost produkcijskih agenata.

Qinyuan Wu i suradnici s Max Planck Institute for Software Systems, Imperial Collegea i Helmholtz Munich-a objavili su 1. svibnja 2026. okvir koji direktno adresira jedan od najskupljih problema produkcijskih AI agenata: kada model treba pozvati vanjski alat, a kada ne. Naslov rada — “To Call or Not to Call” — sažima dilemu koja u praksi košta sekunde latencije, dolare API troškova i postotke točnosti.

Polazna teza glasi da tool-pozivi nisu uvijek korisni; neki su redundantni, neki čak štetni. Web pretraga može unijeti bučnu informaciju koja zbuni model, kalkulator se može pozvati za jednostavnu računicu koju model već zna, baza podataka može vratiti irelevantne retke koji preopterećuju kontekst.

Koje su tri dimenzije evaluacije tool-poziva?

Okvir mjeri svaki potencijalni tool-poziv kroz tri ortogonalne dimenzije: nužnost (treba li alat uopće za zadatak?), korist (poboljšava li ishod kad se koristi?) i prihvatljivost troška (je li dodatna latencija i cijena opravdana?). Sve tri moraju biti pozitivne da bi poziv bio racionalan.

Razlika je suptilna ali ključna: alat može biti nužan (zadatak ga objektivno traži) ali nekorist (model bez njega svejedno postiže točnost), ili može biti koristan (poboljša točnost) ali nedostupan zbog troška u real-time scenariju.

Kako autori uspoređuju samoprocjenu modela s realnošću?

Pristup kombinira dvije perspektive. Normativna procjena dolazi iz ground truth-a: za zadatak X, koji bi tool-pozivi optimalno bili pozvani? Deskriptivna dolazi iz ponašanja modela: koje pozive model misli da mu trebaju?

Razlika između njih otkriva sustavnu pogrešku. Modeli često zovu alate koji im ne pomažu (web pretraga je glavni krivac), a ponekad propuštaju alate koji bi pomogli. Drugim riječima, samoprocjena nije pouzdan signal.

Lightweight estimatori iz hidden states

Glavni tehnički doprinos je da autori treniraju lake estimatore koji predviđaju nužnost i korist iz hidden states samog modela — bez dodatnih API poziva. Ti estimatori postaju temelj kontrolera koji odlučuje treba li tool-poziv ili ne, neovisno o tome što model “misli”.

Eksperimenti na tri zadatka i šest modela pokazuju da kontroleri konzistentno nadmašuju samoprocjenu modela u pogledu kombinirane točnosti i troška.

Što ovo znači za AI inženjere?

Za timove koji grade agente s LangGraph, AutoGen ili Anthropic-ovim računalom za alate, paper je validacija jedne uobičajene intuicije: ne dopuštaj modelu da sam odlučuje treba li mu alat — postavi gating sloj. Praksa koja je do sada bila heuristika, sada ima formalan okvir i empirijske rezultate.

Šire implikacije pogađaju i ekonomiju agenata: ako produkcijski sustav može izbjeći 20–30 % nekorisnih tool-poziva, u skali milijun zahtjeva dnevno to su mjerljivi tisuće dolara mjesečno samo na manjoj API potrošnji.

Česta pitanja

Što istražuje okvir 'To Call or Not to Call'?

Okvir istražuje kada LLM agenti trebaju, a kada ne trebaju pozivati vanjske alate (web pretraga, kalkulator, baza podataka). Razlikuje samoprocjenu modela ('mislim da mi treba') od stvarne koristi tool-poziva za točnost odgovora.

Koje su tri dimenzije evaluacije tool-poziva?

Nužnost (treba li alat uopće?), korist (poboljšava li ishod?) i prihvatljivost troška (opravdava li latencija/cijena dobitak?). Sve tri moraju biti pozitivne da bi tool-poziv bio racionalan.

Što su autori otkrili o samoprocjeni modela?

Postoji značajno neslaganje između onoga što model smatra korisnim i onoga što stvarno poboljšava točnost. Modeli ponekad zovu alate koji im ne pomažu (osobito web pretraga koja unosi bučne informacije), a ponekad propuštaju alate koji bi pomogli.

ArXiv okvir 'To Call or Not to Call' otkriva da LLM-ovi pogrešno procjenjuju kad im trebaju vanjski alati

Koje su tri dimenzije evaluacije tool-poziva?

Kako autori uspoređuju samoprocjenu modela s realnošću?

Lightweight estimatori iz hidden states

Što ovo znači za AI inženjere?

Česta pitanja

Izvori

Povezane vijesti