arXiv:2605.05191: LongSeeker在BrowseComp上达到61.5%

研究人员提出了LongSeeker——一种基于Context-ReAct框架的长时域搜索代理，具备五种动态上下文管理操作。该模型在BrowseComp基准测试上达到61.5%，领先Tongyi DeepResearch达18个百分点。

来自中国高校的研究团队（作者：陆一俊、叶瑞、杜雨文、王佳骏、刘松华、陈思衡）于2026年5月6日发表了编号为arXiv:2605.05191的论文，提出了LongSeeker——一种基于Context-ReAct框架的长时域搜索代理。

工作上下文的五种动态操作

Context-ReAct框架的核心思想是代理不应平等对待整条轨迹。论文指出，「轨迹的各个部分根据与当前步骤的相关性维护在不同的细节层级上」。框架引入了五种针对工作上下文的操作：

Skip — 跳过不相关的步骤。
Compress — 将较长片段压缩为简短表示。
Rollback — 当当前分支无法达到目标时，回退到轨迹的早期节点。
Snippet — 保留从检索页面中提取的具体片段。
Delete — 从上下文中删除错误或过时的内容。

这五种操作保护代理免受上下文溢出的困扰——这是执行长步骤序列的代理系统长期面临的问题。

性能表现与对比

LongSeeker基于Qwen3-30B-A3B进行精调，使用了10,000条合成轨迹。在BrowseComp基准测试上达到61.5%，在中文版本BrowseComp-ZH上达到62.5%。竞争对手差距显著：Tongyi DeepResearch分别达到43.2%和46.7%，AgentFold分别达到36.2%和47.3%。领先Tongyi DeepResearch超过18个百分点是目前BrowseComp上记录的最大差距。

为何重要？

大多数基于ReAct的代理存在上下文线性增长的问题——每一步都将前序步骤的原始内容追加进来。Context-ReAct将显式上下文管理作为一等操作，类似于程序员管理内存的方式。这为不受基础模型窗口大小限制的长时域代理会话开辟了道路。

常见问题

什么是BrowseComp？

BrowseComp是评估代理解决复杂长时域网络搜索任务的基准——涉及多步骤、多页面以及将发现整合为最终答案。

Context-ReAct框架的五种操作是什么？

Skip（跳过）、Compress（压缩）、Rollback（回滚）、Snippet（片段）和Delete（删除）——这些操作使代理能够在长时域任务中自适应地重塑工作上下文。

LongSeeker与其他系统相比如何？

在BrowseComp上达到61.5%，在BrowseComp-ZH上达到62.5%，而Tongyi DeepResearch分别为43.2%和46.7%，AgentFold分别为36.2%和47.3%。

arXiv:2605.05191: LongSeeker通过Context-ReAct框架在BrowseComp上达到61.5%

工作上下文的五种动态操作

性能表现与对比

为何重要？

常见问题

来源

相关新闻