arXiv:2605.16217 Argus:深度研究智能体的证据汇编架构,8路并行搜索器提升12.7个百分点
Argus是由Zhen Zhang、Liangcai Su、Zhuo Chen等研究者于2026年5月15日发布的arXiv论文,提出了面向深度研究智能体的证据汇编框架。该系统采用双智能体架构——搜索器(ReAct风格轨迹)+导航器(共享证据图+强化学习合成)——单搜索器提升5.5个百分点,8路并行提升12.7个百分点,64路并行在BrowseComp上达到86.2分,且不超出上下文窗口限制。
本文由人工智能基于一手来源生成。
Zhen Zhang、Liangcai Su、Zhuo Chen、Xiang Lin、Haotian Xu、Simon Shaolei Du、Kaiyu Yang、Bo An、Lidong Bing和Xinyu Wang于2026年5月15日在arXiv发布论文,提出Argus证据汇编框架,用于深度研究智能体中的并行搜索冗余问题的解决方案。
并行搜索智能体中的冗余问题是什么?
当前最先进的深度研究系统(Perplexity Deep Research、OpenAI Deep Research、GPT-5 Research模式)通常采用并行推演——多个模型实例同时探索同一查询。
问题在于:推演过程存在重复劳动。三个并行智能体往往会:
- 检索相同的来源
- 引用相同的文档
- 得出趋同而非互补的洞察
实际后果:令牌成本线性增长,但信息增益并不成比例提升。8倍并行度可能只带来2至3倍的实际改善——远未达到理想的扩展效率。
证据汇编架构的具体工作原理
Argus重新定义了问题框架:将深度研究视为拼图组装。与其让每个搜索器独立尝试解决整个问题,框架将职责分工:
搜索器(ReAct风格轨迹收集器)
- 针对导航器分配的子查询执行ReAct风格交互
- 收集证据轨迹——与子查询相关的信息片段
- 将结构化证据返回共享图
导航器(图维护者+强化学习合成器)
- 跨所有搜索器维护共享证据图
- 识别缺失片段——证据图中存在空白或连接薄弱之处
- 调度新搜索器进行针对性探索
- 通过强化学习策略合成最终答案
关键差异在于:并行化不再产生冗余,因为每个搜索器从导航器处获得独特的子查询,而导航器掌握完整的证据状态。每个新搜索器贡献新的拼图片段,而非重复已有内容。
论文报告的基准测试结果
论文给出了三种扩展配置的精确数据:
| 配置 | 相对基线提升 |
|---|---|
| 单搜索器 | +5.5个百分点 |
| 8路并行搜索器 | +12.7个百分点 |
| 64路并行搜索器 | BrowseComp达86.2分 |
64路并行搜索器在BrowseComp上的86.2分”超越所有测试的专有智能体”。这是一个重要信号,因为BrowseComp是网络研究智能体的行业标准基准,“所有专有智能体”意味着Argus超越了Perplexity Deep Research、GPT-5 Research、Claude Research模式和Google Gemini Deep Research。
64个并行智能体如何保持上下文可控?
对于并行多智能体系统,一个典型的质疑是:上下文爆炸。如果每个搜索器生成2,000至5,000个令牌的证据轨迹,64路并行将产生12.8万至32万个令牌,超出大多数模型的上下文窗口。
Argus的解决方案:尽管规模扩展,导航器推理上下文仍保持在21,500个令牌以下。摘要中未详细说明具体技术,但推测采用了以下方法:
- 选择性证据投影——导航器读取的是结构化图表示,而非搜索器的原始输出
- 图级压缩——节点和边采用紧凑形式,而非全文
- 层次化摘要——搜索器输出在图集成前先行压缩
35B-A3B MoE主干网络
Argus使用350亿参数MoE(专家混合)主干网络,激活参数为30亿(A3B变体)。具体含义:
- 推理成本效益高——每次推理调用仅激活30亿参数,约为密集350亿模型成本的1/10
- 专业化分工——MoE中的不同专家可针对不同研究领域进行专业化
- 可扩展架构——无需指数级计算增长即可持续训练(增加更多专家)
对深度研究行业的意义
Argus的结果提出了几个重要问题:
- 专有护城河被侵蚀——若开源论文以64路并行搜索器实现BrowseComp 86.2分,Perplexity/OpenAI Deep Research的护城河何在?
- 成本格局转变——64路并行搜索器听起来昂贵,但基于30亿激活参数的MoE,总成本可能低于单个前沿模型的推演成本
- 无需重训即可扩展——论文指出框架支持”单搜索器或多路并行,无需重新训练”——这对负载波动的生产部署至关重要
本论文契合2026年智能体系统架构论文的趋势——这些论文正挑战专有领头羊的地位:GraphFlow(5月15日,形式化验证)、Dual-Dimensional Consistency(5月14日,令牌减少10倍)、CAST(5月14日,工具使用提升5.85pp)。它们共同表明,架构上的智慧优于纯粹的模型规模扩展,是生产级智能体工作负载的最优解。
常见问题
- 证据汇编架构具体如何工作?
- Argus将深度研究视为拼图组装——搜索器执行ReAct风格的交互,为子查询收集证据轨迹;导航器维护共享证据图,识别缺失片段,调度新的搜索器,并通过强化学习合成最终答案;系统无需重新训练即可支持1个、8个或64个并行搜索器。
- 论文报告了哪些基准测试结果?
- 单搜索器配置在基线上提升5.5个百分点;8路并行搜索器提升12.7个百分点;64路并行搜索器在BrowseComp基准上达到86.2分,超越所有测试的专有研究智能体;尽管规模扩大,导航器推理上下文仍保持在21,500个令牌以下。