🟡 🤝 智能体 发布于: · 3 分钟阅读 ·

arXiv:2605.16217 Argus:深度研究智能体的证据汇编架构,8路并行搜索器提升12.7个百分点

arXiv:2605.16217 ↗

Editorial illustration: knowledge graph s evidence node-ovima i parallel searcher agentima oko centralnog navigator-a.

Argus是由Zhen Zhang、Liangcai Su、Zhuo Chen等研究者于2026年5月15日发布的arXiv论文,提出了面向深度研究智能体的证据汇编框架。该系统采用双智能体架构——搜索器(ReAct风格轨迹)+导航器(共享证据图+强化学习合成)——单搜索器提升5.5个百分点,8路并行提升12.7个百分点,64路并行在BrowseComp上达到86.2分,且不超出上下文窗口限制。

🤖

本文由人工智能基于一手来源生成。

Zhen Zhang、Liangcai Su、Zhuo Chen、Xiang Lin、Haotian Xu、Simon Shaolei Du、Kaiyu Yang、Bo An、Lidong Bing和Xinyu Wang于2026年5月15日在arXiv发布论文,提出Argus证据汇编框架,用于深度研究智能体中的并行搜索冗余问题的解决方案。

并行搜索智能体中的冗余问题是什么?

当前最先进的深度研究系统(Perplexity Deep Research、OpenAI Deep Research、GPT-5 Research模式)通常采用并行推演——多个模型实例同时探索同一查询。

问题在于:推演过程存在重复劳动。三个并行智能体往往会:

  • 检索相同的来源
  • 引用相同的文档
  • 得出趋同而非互补的洞察

实际后果:令牌成本线性增长,但信息增益并不成比例提升。8倍并行度可能只带来2至3倍的实际改善——远未达到理想的扩展效率。

证据汇编架构的具体工作原理

Argus重新定义了问题框架:将深度研究视为拼图组装。与其让每个搜索器独立尝试解决整个问题,框架将职责分工:

搜索器(ReAct风格轨迹收集器)

  • 针对导航器分配的子查询执行ReAct风格交互
  • 收集证据轨迹——与子查询相关的信息片段
  • 将结构化证据返回共享图

导航器(图维护者+强化学习合成器)

  • 跨所有搜索器维护共享证据图
  • 识别缺失片段——证据图中存在空白或连接薄弱之处
  • 调度新搜索器进行针对性探索
  • 通过强化学习策略合成最终答案

关键差异在于:并行化不再产生冗余,因为每个搜索器从导航器处获得独特的子查询,而导航器掌握完整的证据状态。每个新搜索器贡献新的拼图片段,而非重复已有内容。

论文报告的基准测试结果

论文给出了三种扩展配置的精确数据:

配置相对基线提升
单搜索器+5.5个百分点
8路并行搜索器+12.7个百分点
64路并行搜索器BrowseComp达86.2分

64路并行搜索器在BrowseComp上的86.2分”超越所有测试的专有智能体”。这是一个重要信号,因为BrowseComp是网络研究智能体的行业标准基准,“所有专有智能体”意味着Argus超越了Perplexity Deep Research、GPT-5 Research、Claude Research模式和Google Gemini Deep Research

64个并行智能体如何保持上下文可控?

对于并行多智能体系统,一个典型的质疑是:上下文爆炸。如果每个搜索器生成2,000至5,000个令牌的证据轨迹,64路并行将产生12.8万至32万个令牌,超出大多数模型的上下文窗口。

Argus的解决方案:尽管规模扩展,导航器推理上下文仍保持在21,500个令牌以下。摘要中未详细说明具体技术,但推测采用了以下方法:

  • 选择性证据投影——导航器读取的是结构化图表示,而非搜索器的原始输出
  • 图级压缩——节点和边采用紧凑形式,而非全文
  • 层次化摘要——搜索器输出在图集成前先行压缩

35B-A3B MoE主干网络

Argus使用350亿参数MoE(专家混合)主干网络,激活参数为30亿(A3B变体)。具体含义:

  • 推理成本效益高——每次推理调用仅激活30亿参数,约为密集350亿模型成本的1/10
  • 专业化分工——MoE中的不同专家可针对不同研究领域进行专业化
  • 可扩展架构——无需指数级计算增长即可持续训练(增加更多专家)

对深度研究行业的意义

Argus的结果提出了几个重要问题:

  • 专有护城河被侵蚀——若开源论文以64路并行搜索器实现BrowseComp 86.2分,Perplexity/OpenAI Deep Research的护城河何在?
  • 成本格局转变——64路并行搜索器听起来昂贵,但基于30亿激活参数的MoE,总成本可能低于单个前沿模型的推演成本
  • 无需重训即可扩展——论文指出框架支持”单搜索器或多路并行,无需重新训练”——这对负载波动的生产部署至关重要

本论文契合2026年智能体系统架构论文的趋势——这些论文正挑战专有领头羊的地位:GraphFlow(5月15日,形式化验证)、Dual-Dimensional Consistency(5月14日,令牌减少10倍)、CAST(5月14日,工具使用提升5.85pp)。它们共同表明,架构上的智慧优于纯粹的模型规模扩展,是生产级智能体工作负载的最优解。

常见问题

证据汇编架构具体如何工作?
Argus将深度研究视为拼图组装——搜索器执行ReAct风格的交互,为子查询收集证据轨迹;导航器维护共享证据图,识别缺失片段,调度新的搜索器,并通过强化学习合成最终答案;系统无需重新训练即可支持1个、8个或64个并行搜索器。
论文报告了哪些基准测试结果?
单搜索器配置在基线上提升5.5个百分点;8路并行搜索器提升12.7个百分点;64路并行搜索器在BrowseComp基准上达到86.2分,超越所有测试的专有研究智能体;尽管规模扩大,导航器推理上下文仍保持在21,500个令牌以下。