🟡 🤝 智能体 2026年5月8日星期五 · 1 分钟阅读 ·

arXiv:2605.05191: LongSeeker通过Context-ReAct框架在BrowseComp上达到61.5%

arXiv:2605.05191 ↗

编辑插图:2605.05191: LongSeeker通过Context-ReAct框架在BrowseComp上达到61.5%

研究人员提出了LongSeeker——一种基于Context-ReAct框架的长时域搜索代理,具备五种动态上下文管理操作。该模型在BrowseComp基准测试上达到61.5%,领先Tongyi DeepResearch达18个百分点。

🤖

本文由人工智能基于一手来源生成。

来自中国高校的研究团队(作者:陆一俊、叶瑞、杜雨文、王佳骏、刘松华、陈思衡)于2026年5月6日发表了编号为arXiv:2605.05191的论文,提出了LongSeeker——一种基于Context-ReAct框架的长时域搜索代理。

工作上下文的五种动态操作

Context-ReAct框架的核心思想是代理不应平等对待整条轨迹。论文指出,「轨迹的各个部分根据与当前步骤的相关性维护在不同的细节层级上」。框架引入了五种针对工作上下文的操作:

  • Skip — 跳过不相关的步骤。
  • Compress — 将较长片段压缩为简短表示。
  • Rollback — 当当前分支无法达到目标时,回退到轨迹的早期节点。
  • Snippet — 保留从检索页面中提取的具体片段。
  • Delete — 从上下文中删除错误或过时的内容。

这五种操作保护代理免受上下文溢出的困扰——这是执行长步骤序列的代理系统长期面临的问题。

性能表现与对比

LongSeeker基于Qwen3-30B-A3B进行精调,使用了10,000条合成轨迹。在BrowseComp基准测试上达到61.5%,在中文版本BrowseComp-ZH上达到62.5%。竞争对手差距显著:Tongyi DeepResearch分别达到43.2%和46.7%,AgentFold分别达到36.2%和47.3%。领先Tongyi DeepResearch超过18个百分点是目前BrowseComp上记录的最大差距。

为何重要?

大多数基于ReAct的代理存在上下文线性增长的问题——每一步都将前序步骤的原始内容追加进来。Context-ReAct将显式上下文管理作为一等操作,类似于程序员管理内存的方式。这为不受基础模型窗口大小限制的长时域代理会话开辟了道路。

常见问题

什么是BrowseComp?
BrowseComp是评估代理解决复杂长时域网络搜索任务的基准——涉及多步骤、多页面以及将发现整合为最终答案。
Context-ReAct框架的五种操作是什么?
Skip(跳过)、Compress(压缩)、Rollback(回滚)、Snippet(片段)和Delete(删除)——这些操作使代理能够在长时域任务中自适应地重塑工作上下文。
LongSeeker与其他系统相比如何?
在BrowseComp上达到61.5%,在BrowseComp-ZH上达到62.5%,而Tongyi DeepResearch分别为43.2%和46.7%,AgentFold分别为36.2%和47.3%。