ArXiv AEM: adaptivna modulacija entropije za multi-turn RL agente postiže +1,4 % na SWE-bench Verified
AEM (Adaptive Entropy Modulation) je supervision-free metoda treniranja koja dinamički modulira entropiju kroz više koraka razgovora kako bi postigla bolju ravnotežu istraživanja i iskorištavanja u pojačanom učenju agentskih LLM-ova. Testirana na modelima od 1,5 do 32 milijarde parametara, ostvaruje 1,4 % poboljšanja kada se integrira u state-of-the-art baseline na SWE-bench Verified benchmarku.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Tim autora Haotian Zhao, Yuxin Zhang, Songlin Zhou i suradnika objavio je AEM (Adaptive Entropy Modulation) — supervision-free metodu treniranja agentskih LLM-ova kroz pojačano učenje (RL) koja se izravno bavi nestabilnim treningom multi-turn zadataka.
Koji problem AEM rješava?
Standardne RL metode za višekoračne agentske zadatke imaju nestabilni trening jer agent treba balansirati istraživanje i iskorištavanje različito u ranim i kasnim koracima razgovora. U ranim koracima agent još otkriva kako zadatak izgleda; u kasnim koracima već ima signal i treba iskoristiti najbolja rješenja. Fiksne RL hiperparametri ne hvataju tu dinamiku.
Standardni token-level entropy bonusi loše rade jer je entropija pojedinog tokena loš proxy za “koliko sustav istražuje” u multi-turn smislu.
Kako radi adaptivna modulacija?
AEM analizira entropiju na razini odgovora, ne pojedinog tokena. Autori izvode praktičan proxy koji omogućuje prirodan prijelaz iz istraživanja u iskorištavanje, vođen dvama signalima:
- Advantage — ocjena koliko je odgovor bolji od baseline politike
- Relative response surprisal — koliko je odgovor “neočekivan” prema trenutnom modelu
Taj sustav nije supervised — ne traži ručno označavanje “kad treba istraživati”, nego sam mjeri stanje treninga.
Koji modeli i benchmark?
Eksperimenti pokrivaju modele od 1,5 do 32 milijardi parametara. Glavna evaluacija je na SWE-bench Verified, industrijskom standardu za agentske LLM-ove na programskim zadacima.
Rezultat: 1,4 % apsolutnog poboljšanja kada se AEM integrira u state-of-the-art baseline. To je solidan, ali ne dramatičan dobitak — značajan jer dolazi bez dodatnih supervisora ili promjene osnovne RL formulacije.
Što ovo govori o trendu?
AEM je peti rad o RL training-u agentskih sustava u zadnja dva tjedna na ArXivu — uz Latent-GRPO (2.5.) i Exploration Hacking (2.5.) iz prethodnih runova. Polje se intenzivno fokusira na stabilizaciju multi-turn treninga, što je preduvjet za pouzdane produkcijske agente. AEM-ov supervision-free pristup posebno je atraktivan za laboratorije koji ne mogu skupljati ručno označene trening podatke u potrebnoj količini.
Česta pitanja
- Što je entropija u kontekstu RL treninga LLM-a?
- Mjera nesigurnosti u izboru sljedećeg tokena ili odgovora — viša entropija znači više istraživanja različitih opcija, niža znači iskorištavanje već naučenih obrazaca.
- Zašto AEM modulira entropiju na razini odgovora, ne tokena?
- Token-level entropija loše korelira s kvalitetom multi-turn ponašanja agenta; response-level analiza nudi precizniji proxy za kad istraživanje prelazi u iskorištavanje.
- Što je SWE-bench Verified?
- Industrijski standardni benchmark za evaluaciju agentskih LLM-ova na zadacima programskog inženjerstva — verifikacija rješenja stvarnih GitHub issuea.
Izvori
Povezane vijesti
Position paper s 30 autora na ICML 2026: orkestracija agentnih AI sustava mora biti Bayes-konzistentna
ArXiv okvir 'To Call or Not to Call' otkriva da LLM-ovi pogrešno procjenjuju kad im trebaju vanjski alati
ArXiv: skriveni trošak alata u LLM agentima — "tool-use tax" smanjuje točnost čak i kad alati pomažu