ArXiv AEM: adaptivna entropija za RL agente

AEM (Adaptive Entropy Modulation) je supervision-free metoda treniranja koja dinamički modulira entropiju kroz više koraka razgovora kako bi postigla bolju ravnotežu istraživanja i iskorištavanja u pojačanom učenju agentskih LLM-ova. Testirana na modelima od 1,5 do 32 milijarde parametara, ostvaruje 1,4 % poboljšanja kada se integrira u state-of-the-art baseline na SWE-bench Verified benchmarku.

Tim autora Haotian Zhao, Yuxin Zhang, Songlin Zhou i suradnika objavio je AEM (Adaptive Entropy Modulation) — supervision-free metodu treniranja agentskih LLM-ova kroz pojačano učenje (RL) koja se izravno bavi nestabilnim treningom multi-turn zadataka.

Koji problem AEM rješava?

Standardne RL metode za višekoračne agentske zadatke imaju nestabilni trening jer agent treba balansirati istraživanje i iskorištavanje različito u ranim i kasnim koracima razgovora. U ranim koracima agent još otkriva kako zadatak izgleda; u kasnim koracima već ima signal i treba iskoristiti najbolja rješenja. Fiksne RL hiperparametri ne hvataju tu dinamiku.

Standardni token-level entropy bonusi loše rade jer je entropija pojedinog tokena loš proxy za “koliko sustav istražuje” u multi-turn smislu.

Kako radi adaptivna modulacija?

AEM analizira entropiju na razini odgovora, ne pojedinog tokena. Autori izvode praktičan proxy koji omogućuje prirodan prijelaz iz istraživanja u iskorištavanje, vođen dvama signalima:

Advantage — ocjena koliko je odgovor bolji od baseline politike
Relative response surprisal — koliko je odgovor “neočekivan” prema trenutnom modelu

Taj sustav nije supervised — ne traži ručno označavanje “kad treba istraživati”, nego sam mjeri stanje treninga.

Koji modeli i benchmark?

Eksperimenti pokrivaju modele od 1,5 do 32 milijardi parametara. Glavna evaluacija je na SWE-bench Verified, industrijskom standardu za agentske LLM-ove na programskim zadacima.

Rezultat: 1,4 % apsolutnog poboljšanja kada se AEM integrira u state-of-the-art baseline. To je solidan, ali ne dramatičan dobitak — značajan jer dolazi bez dodatnih supervisora ili promjene osnovne RL formulacije.

Što ovo govori o trendu?

AEM je peti rad o RL training-u agentskih sustava u zadnja dva tjedna na ArXivu — uz Latent-GRPO (2.5.) i Exploration Hacking (2.5.) iz prethodnih runova. Polje se intenzivno fokusira na stabilizaciju multi-turn treninga, što je preduvjet za pouzdane produkcijske agente. AEM-ov supervision-free pristup posebno je atraktivan za laboratorije koji ne mogu skupljati ručno označene trening podatke u potrebnoj količini.

Česta pitanja

Što je entropija u kontekstu RL treninga LLM-a?

Mjera nesigurnosti u izboru sljedećeg tokena ili odgovora — viša entropija znači više istraživanja različitih opcija, niža znači iskorištavanje već naučenih obrazaca.

Zašto AEM modulira entropiju na razini odgovora, ne tokena?

Token-level entropija loše korelira s kvalitetom multi-turn ponašanja agenta; response-level analiza nudi precizniji proxy za kad istraživanje prelazi u iskorištavanje.

Što je SWE-bench Verified?

Industrijski standardni benchmark za evaluaciju agentskih LLM-ova na zadacima programskog inženjerstva — verifikacija rješenja stvarnih GitHub issuea.

ArXiv AEM: adaptivna modulacija entropije za multi-turn RL agente postiže +1,4 % na SWE-bench Verified

Koji problem AEM rješava?

Kako radi adaptivna modulacija?

Koji modeli i benchmark?

Što ovo govori o trendu?

Česta pitanja

Izvori

Povezane vijesti