arXiv:2605.06642:StraTA——采用分层GRPO的代理强化学习在ALFWorld上达到93.1%
StraTA框架为代理强化学习训练引入了分层GRPO展开设计——模型首先生成高层策略,然后在该框架内执行行动。结果:ALFWorld 93.1%,WebShop 84.2%,SciWorld 63.5%。SciWorld得分超越了闭源前沿系统,证明路径抽象解决了反应式代理的弱点。
本文由人工智能基于一手来源生成。
「StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction」(Xue等人,arXiv:2605.06642)于2026年5月7日发布,提出了一种通过在执行行动前显式规划策略来训练LLM代理的新强化学习方法。来自上海AI实验室和牛津大学的团队在一项基准测试中取得了超越闭源前沿系统的成绩。
分层GRPO如何运作?
GRPO(组相对策略优化)是一种无需独立价值模型、通过比较批次内样本组来优化策略的强化学习算法。StraTA通过三个组件对其进行分层应用:Strategy Sampling从初始状态生成紧凑的战略计划,Conditioned Action Execution在该框架内执行行动,Joint Training同时优化策略生成和行动选择。
基准测试结果如何?
在ALFWorld基准(文本家政任务)上,StraTA达到93.1%的成功率。WebShop基准(模拟在线购物)得到84.2%,SciWorld(科学实验)达到63.5%的总分。作者强调SciWorld的结果「超越了闭源前沿模型」,这对于开放式强化学习方法而言实属罕见。
为什么路径抽象如此重要?
显式的轨迹级规划解决了反应式LLM代理的两个根本弱点:有限的探索能力和在长决策序列中糟糕的信用分配。与其让模型在行动空间中「游荡」,策略将其锚定在一个连贯的计划中。多样化策略探索和批判性自我评估等附加机制进一步提升了鲁棒性。对于代理系统开发而言,StraTA表明分层分解不仅是架构上的改进,更是高效强化学习的基础。
常见问题
- 什么是GRPO?
- GRPO(Group Relative Policy Optimization,组相对策略优化)是一种强化学习算法,通过比较同一批次内的样本组来优化策略,无需独立的价值模型。StraTA中的分层变体在策略和行动两个层面应用GRPO。
- StraTA解决了什么问题?
- 经典LLM代理以反应式方式运作——在没有计划的情况下选择下一步行动,这使得在长决策序列中难以进行信用分配。StraTA引入了抽象层:模型首先生成战略计划,然后在该计划内执行步骤。
- 使用了哪些基准测试?
- 团队在三个基准上评估了该框架:ALFWorld(文本环境任务)、WebShop(在线购物)和SciWorld(科学实验)。取得的成绩分别为93.1%、84.2%和63.5%,其中SciWorld得分超越了闭源前沿模型。