🟡 🤝 Agenti ponedjeljak, 4. svibnja 2026. · 2 min čitanja ·

ArXiv AEM: adaptivna modulacija entropije za multi-turn RL agente postiže +1,4 % na SWE-bench Verified

Editorial illustration: ArXiv AEM: adaptivna modulacija entropije za multi-turn RL agente postiže +1,4 % na SWE-bench Verified

AEM (Adaptive Entropy Modulation) je supervision-free metoda treniranja koja dinamički modulira entropiju kroz više koraka razgovora kako bi postigla bolju ravnotežu istraživanja i iskorištavanja u pojačanom učenju agentskih LLM-ova. Testirana na modelima od 1,5 do 32 milijarde parametara, ostvaruje 1,4 % poboljšanja kada se integrira u state-of-the-art baseline na SWE-bench Verified benchmarku.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Tim autora Haotian Zhao, Yuxin Zhang, Songlin Zhou i suradnika objavio je AEM (Adaptive Entropy Modulation) — supervision-free metodu treniranja agentskih LLM-ova kroz pojačano učenje (RL) koja se izravno bavi nestabilnim treningom multi-turn zadataka.

Koji problem AEM rješava?

Standardne RL metode za višekoračne agentske zadatke imaju nestabilni trening jer agent treba balansirati istraživanje i iskorištavanje različito u ranim i kasnim koracima razgovora. U ranim koracima agent još otkriva kako zadatak izgleda; u kasnim koracima već ima signal i treba iskoristiti najbolja rješenja. Fiksne RL hiperparametri ne hvataju tu dinamiku.

Standardni token-level entropy bonusi loše rade jer je entropija pojedinog tokena loš proxy za “koliko sustav istražuje” u multi-turn smislu.

Kako radi adaptivna modulacija?

AEM analizira entropiju na razini odgovora, ne pojedinog tokena. Autori izvode praktičan proxy koji omogućuje prirodan prijelaz iz istraživanja u iskorištavanje, vođen dvama signalima:

  • Advantage — ocjena koliko je odgovor bolji od baseline politike
  • Relative response surprisal — koliko je odgovor “neočekivan” prema trenutnom modelu

Taj sustav nije supervised — ne traži ručno označavanje “kad treba istraživati”, nego sam mjeri stanje treninga.

Koji modeli i benchmark?

Eksperimenti pokrivaju modele od 1,5 do 32 milijardi parametara. Glavna evaluacija je na SWE-bench Verified, industrijskom standardu za agentske LLM-ove na programskim zadacima.

Rezultat: 1,4 % apsolutnog poboljšanja kada se AEM integrira u state-of-the-art baseline. To je solidan, ali ne dramatičan dobitak — značajan jer dolazi bez dodatnih supervisora ili promjene osnovne RL formulacije.

Što ovo govori o trendu?

AEM je peti rad o RL training-u agentskih sustava u zadnja dva tjedna na ArXivu — uz Latent-GRPO (2.5.) i Exploration Hacking (2.5.) iz prethodnih runova. Polje se intenzivno fokusira na stabilizaciju multi-turn treninga, što je preduvjet za pouzdane produkcijske agente. AEM-ov supervision-free pristup posebno je atraktivan za laboratorije koji ne mogu skupljati ručno označene trening podatke u potrebnoj količini.

Česta pitanja

Što je entropija u kontekstu RL treninga LLM-a?
Mjera nesigurnosti u izboru sljedećeg tokena ili odgovora — viša entropija znači više istraživanja različitih opcija, niža znači iskorištavanje već naučenih obrazaca.
Zašto AEM modulira entropiju na razini odgovora, ne tokena?
Token-level entropija loše korelira s kvalitetom multi-turn ponašanja agenta; response-level analiza nudi precizniji proxy za kad istraživanje prelazi u iskorištavanje.
Što je SWE-bench Verified?
Industrijski standardni benchmark za evaluaciju agentskih LLM-ova na zadacima programskog inženjerstva — verifikacija rješenja stvarnih GitHub issuea.