TRIAGE:如何在智能体强化学习中将功劳归因给正确的 token
研究人员提出 TRIAGE——一个将轨迹片段分类为四种语义角色并为每种角色分配不同奖励信号的框架,而非像 GRPO 一样均等对待所有 token。在 ALFWorld、Search-QA 和 WebShop 基准测试上,TRIAGE 将与环境的交互动作数量减少了 10.4% 至 14.8%。
本文由人工智能基于一手来源生成。
每当 AI 智能体解决一个任务,它就会生成一条轨迹——一系列动作、工具调用和中间结果。标准的强化学习算法如 GRPO 会均等对待这个序列:如果结果成功,所有 token 获得正优势;如果失败,全部获得负优势。问题在于这一假设并不成立。
为什么均一优势会产生错误激励?
想象一个智能体三次走入死胡同,但在第四次尝试时成功了。GRPO 会均等地奖励所有四个序列,包括那三次有助于找到解决方案的有益探索——但也包括大量毫无贡献的冗余代码。而在失败的运行中,它反而会惩罚那个本来走在正确轨道上的探索序列。
TRIAGE(智能体强化学习的角色类型功劳分配,Role-Typed Credit Assignment for Agentic RL),2026 年 6 月 30 日发布于 arXiv(2606.32017),在现有的结果信号基础上引入了语义维度。
四种角色,四种功劳等级
具有固定结构的大语言模型评判器评估每个轨迹片段,并为其分配以下四种角色之一:
1. 决定性进展 — 直接推动智能体朝目标前进的动作。按对目标的贡献比例给予奖励。
2. 有益探索 — 不直接导向成功,但排除了死胡同或收集了与后续过程相关信息的动作。在标准 GRPO 中,这些动作在失败运行中会被惩罚;在 TRIAGE 中,它们被识别为积极贡献。
3. 无进展基础设施 — 必要但中性的动作:初始化、解析、输出格式化。既不额外奖励也不额外惩罚,仅按其在结果中的比例份额处理。
4. 退步 — 将智能体推离目标、撤销先前进展或引入错误的动作。即使最终结果成功也会受到惩罚。
角色条件化奖励的分配遵循固定规则——而非临时启发式方法。作者证明这种分配代表了在角色变量上可表达的片段级优势残差的最优投影。
三项基准测试的结果
TRIAGE 在 ALFWorld(文本家庭环境中的导航与操控)、Search-QA(通过网络搜索查找答案)和 WebShop(模拟电子商务界面上的购物)上进行了测试。
关键发现:在完成的推出中,TRIAGE 与 GRPO 相比将与环境的动作数量减少了 10.4% 至 14.8%,同时提高了成功率。相同模型的智能体用更少的步骤解决任务——这在实践中等同于更低的成本和更短的响应时间。
消融研究说明了什么?
作者分离了四种角色各自的贡献。检测成功轨迹中的退步被证明是最主要的改进因素。这是一个反直觉的发现:最重要的不是奖励良好的探索,而是惩罚不良动作,即使结果为正。
对有益探索的功劳认定带来了一致但次要的改进——在 WebShop 等产品信息收集对正确决策至关重要的环境中尤为明显。
在文献中的定位
TRIAGE 不修改目标模型,也不引入昂贵的额外训练——大语言模型评判器可以是一个更小的专门模型。结果信号(episode 的成功/失败)仍然是主要优化器;TRIAGE 添加了一个过程层,根据片段的语义贡献在轨迹内重新分配该信号。
对于在高成本环境(网络、代码、数据库)中执行多步骤任务的智能体从业者而言,超过 10% 的动作减少直接转化为运营成本节省。该论文今日起可在 arXiv 上获取。
常见问题
- TRIAGE 解决的具体问题是什么?
- 标准 GRPO 为轨迹中的所有 token 分配相同的优势。这惩罚了失败运行中的有益探索,并奖励了成功运行中的冗余内容——TRIAGE 通过语义分类片段来解决这一问题。
- 谁评估哪个片段属于哪种角色?
- 结构化的大语言模型评判器评估每个片段,并为其分配四种角色之一:决定性进展、有益探索、无进展基础设施或退步。
- 对性能提升贡献最大的是什么?
- 消融研究表明,检测成功轨迹中的退步是最重要的单一因素——即使结果为正,惩罚退步动作也带来了最大收益。