arXiv:2605.31584:LongTraceRL从搜索智能体轨迹中学习长上下文推理
LongTraceRL是一种用于长上下文推理的强化学习新方法。它从搜索智能体轨迹中构建训练数据,采用分级干扰项,并使用结合实体级过程监督的rubric奖励,在5个基准测试上、对40亿至300亿参数模型实现一致的提升。
本文由人工智能基于一手来源生成。
论文arXiv:2605.31584提出了LongTraceRL,一种强化学习(reinforcement learning, RL)方法,旨在解决长上下文推理的难题——即大型语言模型难以在大量干扰内容中找到并关联关键信息的情形。
什么是长上下文推理?
长上下文推理意味着模型必须基于非常长的输入(例如同时处理多份文档)得出结论。问题在于相关数据往往「稀释」在众多无关段落之中。LongTraceRL采用带可验证奖励的RL (RLVR),从而克服了受限于弱干扰项和稀疏反馈信号的方法。
训练数据如何生成?
数据由搜索智能体轨迹(trajectories)构建,包含两个层级的干扰项(distractors)。第一类是智能体打开但未引用的文档——它们极具迷惑性,因为看起来很相关。第二类是出现在搜索结果中但智能体从未打开的文档,因而属于低迷惑性。这种分级方法优于随机采样或基于单次搜索的构建。
什么是rubric奖励?
Rubric奖励(按标准给予的奖励)将每条推理链上的黄金实体用作实体级别的精细过程监督。这使得可以引导中间步骤,而不仅仅是验证最终答案。系统采用仅正向奖励策略:只在答案正确时才奖励推理质量,从而防止「reward hacking」。
结果如何?
测试涵盖5个长上下文基准和参数规模从40亿到300亿的模型。LongTraceRL相对于强基线方法展现出一致的提升,促进了彻底且基于证据的推理。相关材料可在作者的GitHub仓库中获取。
常见问题
- 什么是分级干扰项?
- 这是两个层级的干扰文档:智能体打开但未引用的(高度迷惑性),以及出现在结果中但未被打开的(低迷惑性)。
- 它在多少个基准上进行了测试?
- LongTraceRL在5个长上下文基准上、对40亿至300亿参数规模的模型进行了测试,并取得了一致的提升。