arXiv: LLM tool-calling linearno steerable bez fine-tuninga

Istraživači UCL-a, Holistic AI i Imperial Collegea otkrili su da LLM-ovi interno reprezentiraju odabir alata linearno. Mean-difference vektor — razlika prosječnih aktivacija između dva alata — dodan u aktivacije mijenja selekciju s 77-100% točnošću na 12 testiranih modela (270M-27B parametara), bez ikakvog fine-tuninga.

Istraživački tim sa University College Londona, Holistic AI i Imperial College Londona — Zekun Wu, Ze Wang, Seonglae Cho, Yufei Yang, Adriano Koshiyama, Sahan Bulathwela i Maria Perez-Ortiz — objavio je 11. svibnja 2026. studiju koja pokazuje da LLM-ovi interno reprezentiraju odabir alata linearno i da se taj izbor može pouzdano steerati bez fine-tuninga.

Što su istraživači otkrili?

Glavni nalaz: tool selection u jezičnim modelima je “linearly readable and steerable” kroz manipulaciju aktivacijama. Dodavanjem mean-difference vektora — razlike prosječnih aktivacija između dva alata — istraživači su postigli “77-100% točnost na name-only single-turn promptima, 93-100% kod modela 4B+.” Tehnika ne zahtijeva nikakvo dodatno treniranje.

Koji modeli su testirani?

Studija je obuhvatila 12 instruction-tuned modela kroz familije Gemma 3, Qwen 3, Qwen 2.5 i Llama 3.1, s rasponom parametara od 270M do 27B. Konzistentni rezultati kroz toliko različitih arhitektura sugeriraju da je fenomen univerzalan, a ne artefakt specifičnog modela ili treninga.

Što ovo otkriva o internoj strukturi modela?

Autori su koristili activation patching i kauzalnu analizu te utvrdili da se uzročni efekt “koncentrira duž jednog smjera, retka izlaznog sloja koji proizvodi prvi token ciljanog alata.” Iznenađujuće, čak su base modeli (prije instruction-tuninga) kodirali ispravne informacije o alatima — cosine readout vraća 69-82% na BFCL benchmarkovima, dok base generacija postiže samo 2-10%. Instruction-tuning, čini se, samo žiči postojeće reprezentacije u izlaz.

Što su praktične implikacije i ograničenja?

Tehnika otvara nove mogućnosti za laganu kontrolu agentskih sustava: prebacivanje alata bez retreniranja, A/B testiranje različitih tool routinga, mitigacija pristranosti modela prema određenim alatima. Ograničenja su značajna — autori naglašavaju da nalazi vrijede u single-turn fiksnoj menu postavi, dok je multi-turn agentic transfer “fragilniji” i zahtijeva daljnja istraživanja.

Česta pitanja

Što je mean-difference vektor?

Mean-difference vektor je razlika između prosječnih aktivacijskih vektora dvije klase (npr. dva alata). Računa se tako da se uzme prosjek aktivacija na primjerima gdje model bira alat A, prosjek na primjerima gdje bira alat B, i oduzme se. Dodavanjem te razlike u aktivacije tijekom inferencije može se 'pogurnuti' model prema jednom ili drugom alatu.

Zašto je linearna reprezentacija iznenađujuća?

Mnogi su pretpostavljali da je odabir alata u LLM-ovima rezultat složene interakcije više slojeva i komponenti. Studija pokazuje da uzročni efekt koncentriran je 'duž jednog smjera, retka izlaznog sloja koji proizvodi prvi token ciljanog alata' — što ukazuje na jednostavniju strukturu nego što se mislilo, i otvara vrata jednostavnijim metodama kontrole.

Vrijedi li ovo i za multi-turn agentske scenarije?

Autori eksplicitno upozoravaju: nalazi vrijede za 'single-turn fixed-menu settings', dok je 'multi-turn agentic transfer fragilniji'. To znači da je tehnika korisna za kontrolu izbora alata u jednom koraku, ali pouzdano upravljanje višestrukim alatima kroz duže agentske trajektorije ostaje otvoreni problem.

arXiv:2605.07990: LLM tool-calling linearno reprezentiran — mean-difference vektor mijenja izbor 77-100%

Što su istraživači otkrili?

Koji modeli su testirani?

Što ovo otkriva o internoj strukturi modela?

Što su praktične implikacije i ograničenja?

Česta pitanja

Izvori

Povezane vijesti