arXiv:2605.05191: LongSeeker通过Context-ReAct框架在BrowseComp上达到61.5%
研究人员提出了LongSeeker——一种基于Context-ReAct框架的长时域搜索代理,具备五种动态上下文管理操作。该模型在BrowseComp基准测试上达到61.5%,领先Tongyi DeepResearch达18个百分点。
本文由人工智能基于一手来源生成。
来自中国高校的研究团队(作者:陆一俊、叶瑞、杜雨文、王佳骏、刘松华、陈思衡)于2026年5月6日发表了编号为arXiv:2605.05191的论文,提出了LongSeeker——一种基于Context-ReAct框架的长时域搜索代理。
工作上下文的五种动态操作
Context-ReAct框架的核心思想是代理不应平等对待整条轨迹。论文指出,「轨迹的各个部分根据与当前步骤的相关性维护在不同的细节层级上」。框架引入了五种针对工作上下文的操作:
- Skip — 跳过不相关的步骤。
- Compress — 将较长片段压缩为简短表示。
- Rollback — 当当前分支无法达到目标时,回退到轨迹的早期节点。
- Snippet — 保留从检索页面中提取的具体片段。
- Delete — 从上下文中删除错误或过时的内容。
这五种操作保护代理免受上下文溢出的困扰——这是执行长步骤序列的代理系统长期面临的问题。
性能表现与对比
LongSeeker基于Qwen3-30B-A3B进行精调,使用了10,000条合成轨迹。在BrowseComp基准测试上达到61.5%,在中文版本BrowseComp-ZH上达到62.5%。竞争对手差距显著:Tongyi DeepResearch分别达到43.2%和46.7%,AgentFold分别达到36.2%和47.3%。领先Tongyi DeepResearch超过18个百分点是目前BrowseComp上记录的最大差距。
为何重要?
大多数基于ReAct的代理存在上下文线性增长的问题——每一步都将前序步骤的原始内容追加进来。Context-ReAct将显式上下文管理作为一等操作,类似于程序员管理内存的方式。这为不受基础模型窗口大小限制的长时域代理会话开辟了道路。
常见问题
- 什么是BrowseComp?
- BrowseComp是评估代理解决复杂长时域网络搜索任务的基准——涉及多步骤、多页面以及将发现整合为最终答案。
- Context-ReAct框架的五种操作是什么?
- Skip(跳过)、Compress(压缩)、Rollback(回滚)、Snippet(片段)和Delete(删除)——这些操作使代理能够在长时域任务中自适应地重塑工作上下文。
- LongSeeker与其他系统相比如何?
- 在BrowseComp上达到61.5%,在BrowseComp-ZH上达到62.5%,而Tongyi DeepResearch分别为43.2%和46.7%,AgentFold分别为36.2%和47.3%。