arXiv:2605.06642: StraTA — agentic RL s hijerarhijskim GRPO postiže 93.1% na ALFWorldu
StraTA framework uvodi hijerarhijski GRPO rollout dizajn za RL trening agenata — model najprije generira visoku strategiju, pa u tom okviru izvršava akcije. Rezultati: ALFWorld 93.1%, WebShop 84.2%, SciWorld 63.5%. SciWorld nadmašuje frontier closed-source sustave, dokazujući da apstrakcija putanje rješava slabosti reaktivnih agenata.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživanje “StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction” (Xue et al., arXiv:2605.06642) objavljeno 7. svibnja 2026. predstavlja novi pristup RL treniranju LLM agenata kroz eksplicitno planiranje strategije prije izvršavanja akcija. Tim s Shanghai AI Laba i Oxforda postiže rezultate koji u jednom benchmarku nadmašuju i closed-source frontier sustave.
Kako funkcionira hijerarhijski GRPO?
GRPO (Group Relative Policy Optimization) je RL algoritam koji uspoređuje grupe uzoraka unutar batcha bez zasebnog value modela. StraTA ga primjenjuje hijerarhijski kroz tri komponente: Strategy Sampling generira kompaktan strateški plan iz početnog stanja, Conditioned Action Execution izvršava akcije unutar tog okvira, a Joint Training istovremeno optimizira generiranje strategije i odabir akcija.
Što benchmarkovi pokazuju?
Na ALFWorld benchmarku (tekstualni domaćinski zadaci) StraTA postiže 93.1% uspješnosti. WebShop benchmark (simulirana online kupnja) daje 84.2%, dok SciWorld (znanstveni eksperimenti) dosiže 63.5% ukupnog skora. Autori naglašavaju da SciWorld rezultati “nadmašuju frontier closed-source modele”, što je rijetko za otvoreni RL pristup.
Zašto je apstrakcija putanje važna?
Eksplicitno trajectory-level planiranje rješava dvije temeljne slabosti reaktivnih LLM agenata: ograničenu eksplorativnu sposobnost i loš credit assignment kroz duge sekvence odluka. Umjesto da model “luta” kroz prostor akcija, strategija ga usidri u koherentan plan. Dodani mehanizmi raznolike eksploracije strategija i kritične samoevaluacije dodatno povećavaju robusnost. Za development agentic sustava, StraTA sugerira da hijerarhijska dekompozicija nije samo arhitektonsko poboljšanje, već i temelj efikasnog RL učenja.
Česta pitanja
- Što je GRPO?
- GRPO (Group Relative Policy Optimization) je RL algoritam koji optimizira politiku usporedbom grupa uzoraka unutar istog batcha, bez potrebe za zasebnim value modelom. Hijerarhijska varijanta u StraTA primjenjuje GRPO na dvije razine — strategiji i akciji.
- Što StraTA rješava?
- Klasični LLM agenti djeluju reaktivno — biraju sljedeću akciju bez plana. To otežava credit assignment kroz duge sekvence odluka. StraTA uvodi sloj apstrakcije: model prvo generira strateški plan, pa onda izvršava korake unutar tog plana.
- Koji benchmarkovi su korišteni?
- Tim je evaluirao framework na tri standarda: ALFWorld (zadaci s tekstualnim okruženjem), WebShop (online kupnja) i SciWorld (znanstveni eksperimenti). Postignuti rezultati: 93.1%, 84.2% i 63.5%, pri čemu SciWorld skor nadmašuje frontier closed-source modele.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije