ICML 2026: Agenti za alate krhki izvan benchmarka

Rad prihvaćen na ICML 2026 sustavno testira LLM agente za upotrebu alata pod pomacima okoline kroz četiri razine — Percepciju, Interakciju, Rezoniranje i Internalizaciju. Nalazi: i SFT i RL treniranje pokazuju značajnu degradaciju pri skromnim pomacima distribucije, a točnost na kontroliranom benchmarku ne predviđa stvarnu robusnost. Predloženi PAFT (Perturbation-Augmented Fine-Tuning) nudi mitigaciju.

Rad „Can Agents Generalize to the Open World? Unveiling the Fragility of Static Training in Tool Use” autorica Song-Lin Lv, Weiming Wu, Rui Zhu, Zi-Jian Cheng i Lan-Zhe Guo prihvaćen je na ICML 2026 i objavljen 1. srpnja 2026. Istraživanje izravno osporava pretpostavku koja leži u temelju mnogih evaluacijskih praksi: da dobra točnost na benchmarku znači robusnog agenta u deploymentu.

Kontrolirani sandbox za open-world stres-testiranje

Istraživački tim razvio je ponovljivi sandbox koji omogućuje sustavno testiranje distribucijskih pomaka kroz četiri hijerarhijske razine:

Percepcija — pomaci u tome kako agent prima i interpretira ulazne informacije
Interakcija — promjene u sučelju i ponašanju alata s kojima agent radi
Rezoniranje — promjene u zahtjevima logičkog zaključivanja unutar zadatka
Internalizacija — domenski pomaci koji zahtijevaju prilagodbu naučenih znanja

Svaka razina modelira specifičnu vrstu varijacije koja se realistično javlja u stvarnom deploymentu, ali je rijetko prisutna u standardnim trening i evaluacijskim skupovima podataka.

Ključni nalazi: Statičan trening stvara krhkost

Zašto benchmark točnost ne predviđa robusnost?

Centralni nalaz istraživanja jest da agenti trenirani kroz Supervised Fine-Tuning (SFT) i Reinforcement Learning (RL) pokazuju značajnu degradaciju performansi pri svim četirima razinama distribucijskih pomaka — čak i kada su ti pomaci skromni.

Kritična implikacija: točnost na kontroliranom benchmarku ne predviđa stvarnu robusnost. Jaz između benchmark performansi i performansi pod realnim uvjetima je velik i sustavno podcjenjivan. Agent koji postiže izvrsne rezultate u nadziranom okruženju može dramatično pasti u performansama kada se promijeni bilo koji aspekt interakcije s alatima — čak i bez promjene samog zadatka.

Ovo izravno osporava pretpostavku da će RLHF ili SFT-trenirani agenti za upotrebu alata pouzdano generalizirati na novi tooling, nove API-je ili nove domene primjene.

PAFT: Perturbacije kao dio treninga

Kao mitigaciju, istraživači predlažu PAFT (Perturbation-Augmented Fine-Tuning) — strategiju fine-tuninga koja eksplicitno uključuje perturbacije okoline u proces treninga. Umjesto da agent uči samo iz statičnih primjera ispravnog korištenja alata, PAFT trenira na modificiranim verzijama koje simuliraju distribucijske pomake koji će se pojaviti u deploymentu.

Pristup je konceptualno blizak metodama podatkovne augmentacije u computer visionu — ali prilagođen specifičnoj strukturi varijacija u agentic tool-use scenarijima.

Infrastrukturni doprinos

Pored nalaza, rad nudi i konkretan infrastrukturni doprinos: ponovljivi sandbox za open-world stres-testiranje agenata za upotrebu alata koji može biti primijenjen neovisno o specifičnoj arhitekturi modela. Ovo je posebno vrijedno jer omogućuje istraživačima i praktičarima da verificiraju robusnost vlastitih agenata na standardiziran način — umjesto oslanjanja isključivo na benchmark točnost.

Prihvaćanje na ICML 2026 signalizira da zajednica prepoznaje ovu vrstu evaluacijske infrastrukture kao metodološki prioritet. U trenutku kada se agentni sustavi aktivno deployaju u produkcijska okruženja, razumijevanje granica generalizacije statičnog treninga postaje kritično za odgovoran razvoj.

Česta pitanja

Zašto visoka točnost na benchmarkovima ne garantira robusnost u stvarnom svijetu?

Istraživanje pokazuje da standardni benchmarkovi ne modeliraju distribucijske pomake koji se javljaju u stvarnom deploymentu — male promjene u percepciji, interakciji, rezoniranju ili domeni dovoljne su za značajan pad performansi agenata treniranih isključivo na statičkim skupovima podataka.

Što je PAFT i kako pomaže?

PAFT (Perturbation-Augmented Fine-Tuning) je metoda fine-tuninga koja u trening eksplicitno uključuje perturbacije okoline, čineći agenta robusnijim na distribucijske pomake koji se javljaju u stvarnim scenarijima korištenja alata.

Na kojim se razinama testira robusnost agenata u ovom istraživanju?

Sandbox pokriva četiri hijerarhijske razine: Percepciju (kako agent vidi informacije), Interakciju (kako komunicira s alatima), Rezoniranje (logičke zaključke) i Internalizaciju (prilagodbu domenskim promjenama).

Istraživanje ICML 2026: SFT i RL agenti dramatično gube na performansama izvan kontroliranog benchmarka