LongTraceRL：从搜索智能体轨迹学习长上下文推理

LongTraceRL是一种用于长上下文推理的强化学习新方法。它从搜索智能体轨迹中构建训练数据，采用分级干扰项，并使用结合实体级过程监督的rubric奖励，在5个基准测试上、对40亿至300亿参数模型实现一致的提升。

论文arXiv:2605.31584提出了LongTraceRL，一种强化学习（reinforcement learning, RL）方法，旨在解决长上下文推理的难题——即大型语言模型难以在大量干扰内容中找到并关联关键信息的情形。

什么是长上下文推理？

长上下文推理意味着模型必须基于非常长的输入（例如同时处理多份文档）得出结论。问题在于相关数据往往「稀释」在众多无关段落之中。LongTraceRL采用带可验证奖励的RL (RLVR)，从而克服了受限于弱干扰项和稀疏反馈信号的方法。

训练数据如何生成？

数据由搜索智能体轨迹（trajectories）构建，包含两个层级的干扰项（distractors）。第一类是智能体打开但未引用的文档——它们极具迷惑性，因为看起来很相关。第二类是出现在搜索结果中但智能体从未打开的文档，因而属于低迷惑性。这种分级方法优于随机采样或基于单次搜索的构建。

什么是rubric奖励？

Rubric奖励（按标准给予的奖励）将每条推理链上的黄金实体用作实体级别的精细过程监督。这使得可以引导中间步骤，而不仅仅是验证最终答案。系统采用仅正向奖励策略：只在答案正确时才奖励推理质量，从而防止「reward hacking」。

结果如何？

测试涵盖5个长上下文基准和参数规模从40亿到300亿的模型。LongTraceRL相对于强基线方法展现出一致的提升，促进了彻底且基于证据的推理。相关材料可在作者的GitHub仓库中获取。

常见问题

什么是分级干扰项？

这是两个层级的干扰文档：智能体打开但未引用的（高度迷惑性），以及出现在结果中但未被打开的（低迷惑性）。

它在多少个基准上进行了测试？

LongTraceRL在5个长上下文基准上、对40亿至300亿参数规模的模型进行了测试，并取得了一致的提升。

arXiv:2605.31584：LongTraceRL从搜索智能体轨迹中学习长上下文推理

什么是长上下文推理？

训练数据如何生成？

什么是rubric奖励？

结果如何？

常见问题

来源

相关新闻