Istraživanje ICML 2026: SFT i RL agenti dramatično gube na performansama izvan kontroliranog benchmarka
Rad prihvaćen na ICML 2026 sustavno testira LLM agente za upotrebu alata pod pomacima okoline kroz četiri razine — Percepciju, Interakciju, Rezoniranje i Internalizaciju. Nalazi: i SFT i RL treniranje pokazuju značajnu degradaciju pri skromnim pomacima distribucije, a točnost na kontroliranom benchmarku ne predviđa stvarnu robusnost. Predloženi PAFT (Perturbation-Augmented Fine-Tuning) nudi mitigaciju.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Rad „Can Agents Generalize to the Open World? Unveiling the Fragility of Static Training in Tool Use” autorica Song-Lin Lv, Weiming Wu, Rui Zhu, Zi-Jian Cheng i Lan-Zhe Guo prihvaćen je na ICML 2026 i objavljen 1. srpnja 2026. Istraživanje izravno osporava pretpostavku koja leži u temelju mnogih evaluacijskih praksi: da dobra točnost na benchmarku znači robusnog agenta u deploymentu.
Kontrolirani sandbox za open-world stres-testiranje
Istraživački tim razvio je ponovljivi sandbox koji omogućuje sustavno testiranje distribucijskih pomaka kroz četiri hijerarhijske razine:
- Percepcija — pomaci u tome kako agent prima i interpretira ulazne informacije
- Interakcija — promjene u sučelju i ponašanju alata s kojima agent radi
- Rezoniranje — promjene u zahtjevima logičkog zaključivanja unutar zadatka
- Internalizacija — domenski pomaci koji zahtijevaju prilagodbu naučenih znanja
Svaka razina modelira specifičnu vrstu varijacije koja se realistično javlja u stvarnom deploymentu, ali je rijetko prisutna u standardnim trening i evaluacijskim skupovima podataka.
Ključni nalazi: Statičan trening stvara krhkost
Zašto benchmark točnost ne predviđa robusnost?
Centralni nalaz istraživanja jest da agenti trenirani kroz Supervised Fine-Tuning (SFT) i Reinforcement Learning (RL) pokazuju značajnu degradaciju performansi pri svim četirima razinama distribucijskih pomaka — čak i kada su ti pomaci skromni.
Kritična implikacija: točnost na kontroliranom benchmarku ne predviđa stvarnu robusnost. Jaz između benchmark performansi i performansi pod realnim uvjetima je velik i sustavno podcjenjivan. Agent koji postiže izvrsne rezultate u nadziranom okruženju može dramatično pasti u performansama kada se promijeni bilo koji aspekt interakcije s alatima — čak i bez promjene samog zadatka.
Ovo izravno osporava pretpostavku da će RLHF ili SFT-trenirani agenti za upotrebu alata pouzdano generalizirati na novi tooling, nove API-je ili nove domene primjene.
PAFT: Perturbacije kao dio treninga
Kao mitigaciju, istraživači predlažu PAFT (Perturbation-Augmented Fine-Tuning) — strategiju fine-tuninga koja eksplicitno uključuje perturbacije okoline u proces treninga. Umjesto da agent uči samo iz statičnih primjera ispravnog korištenja alata, PAFT trenira na modificiranim verzijama koje simuliraju distribucijske pomake koji će se pojaviti u deploymentu.
Pristup je konceptualno blizak metodama podatkovne augmentacije u computer visionu — ali prilagođen specifičnoj strukturi varijacija u agentic tool-use scenarijima.
Infrastrukturni doprinos
Pored nalaza, rad nudi i konkretan infrastrukturni doprinos: ponovljivi sandbox za open-world stres-testiranje agenata za upotrebu alata koji može biti primijenjen neovisno o specifičnoj arhitekturi modela. Ovo je posebno vrijedno jer omogućuje istraživačima i praktičarima da verificiraju robusnost vlastitih agenata na standardiziran način — umjesto oslanjanja isključivo na benchmark točnost.
Prihvaćanje na ICML 2026 signalizira da zajednica prepoznaje ovu vrstu evaluacijske infrastrukture kao metodološki prioritet. U trenutku kada se agentni sustavi aktivno deployaju u produkcijska okruženja, razumijevanje granica generalizacije statičnog treninga postaje kritično za odgovoran razvoj.
Česta pitanja
- Zašto visoka točnost na benchmarkovima ne garantira robusnost u stvarnom svijetu?
- Istraživanje pokazuje da standardni benchmarkovi ne modeliraju distribucijske pomake koji se javljaju u stvarnom deploymentu — male promjene u percepciji, interakciji, rezoniranju ili domeni dovoljne su za značajan pad performansi agenata treniranih isključivo na statičkim skupovima podataka.
- Što je PAFT i kako pomaže?
- PAFT (Perturbation-Augmented Fine-Tuning) je metoda fine-tuninga koja u trening eksplicitno uključuje perturbacije okoline, čineći agenta robusnijim na distribucijske pomake koji se javljaju u stvarnim scenarijima korištenja alata.
- Na kojim se razinama testira robusnost agenata u ovom istraživanju?
- Sandbox pokriva četiri hijerarhijske razine: Percepciju (kako agent vidi informacije), Interakciju (kako komunicira s alatima), Rezoniranje (logičke zaključke) i Internalizaciju (prilagodbu domenskim promjenama).