证据汇编架构具体如何工作？

Argus将深度研究视为拼图组装——搜索器执行ReAct风格的交互，为子查询收集证据轨迹；导航器维护共享证据图，识别缺失片段，调度新的搜索器，并通过强化学习合成最终答案；系统无需重新训练即可支持1个、8个或64个并行搜索器。

论文报告了哪些基准测试结果？

单搜索器配置在基线上提升5.5个百分点；8路并行搜索器提升12.7个百分点；64路并行搜索器在BrowseComp基准上达到86.2分，超越所有测试的专有研究智能体；尽管规模扩大，导航器推理上下文仍保持在21,500个令牌以下。

arXiv Argus：64路并行搜索器BrowseComp达86.2分

Argus是由Zhen Zhang、Liangcai Su、Zhuo Chen等研究者于2026年5月15日发布的arXiv论文，提出了面向深度研究智能体的证据汇编框架。该系统采用双智能体架构——搜索器（ReAct风格轨迹）+导航器（共享证据图+强化学习合成）——单搜索器提升5.5个百分点，8路并行提升12.7个百分点，64路并行在BrowseComp上达到86.2分，且不超出上下文窗口限制。

Zhen Zhang、Liangcai Su、Zhuo Chen、Xiang Lin、Haotian Xu、Simon Shaolei Du、Kaiyu Yang、Bo An、Lidong Bing和Xinyu Wang于2026年5月15日在arXiv发布论文，提出Argus证据汇编框架，用于深度研究智能体中的并行搜索冗余问题的解决方案。

并行搜索智能体中的冗余问题是什么？

当前最先进的深度研究系统（Perplexity Deep Research、OpenAI Deep Research、GPT-5 Research模式）通常采用并行推演——多个模型实例同时探索同一查询。

问题在于：推演过程存在重复劳动。三个并行智能体往往会：

检索相同的来源
引用相同的文档
得出趋同而非互补的洞察

实际后果：令牌成本线性增长，但信息增益并不成比例提升。8倍并行度可能只带来2至3倍的实际改善——远未达到理想的扩展效率。

证据汇编架构的具体工作原理

Argus重新定义了问题框架：将深度研究视为拼图组装。与其让每个搜索器独立尝试解决整个问题，框架将职责分工：

搜索器（ReAct风格轨迹收集器）

针对导航器分配的子查询执行ReAct风格交互
收集证据轨迹——与子查询相关的信息片段
将结构化证据返回共享图

导航器（图维护者+强化学习合成器）

跨所有搜索器维护共享证据图
识别缺失片段——证据图中存在空白或连接薄弱之处
调度新搜索器进行针对性探索
通过强化学习策略合成最终答案

关键差异在于：并行化不再产生冗余，因为每个搜索器从导航器处获得独特的子查询，而导航器掌握完整的证据状态。每个新搜索器贡献新的拼图片段，而非重复已有内容。

论文报告的基准测试结果

论文给出了三种扩展配置的精确数据：

配置	相对基线提升
单搜索器	+5.5个百分点
8路并行搜索器	+12.7个百分点
64路并行搜索器	BrowseComp达86.2分

64路并行搜索器在BrowseComp上的86.2分”超越所有测试的专有智能体”。这是一个重要信号，因为BrowseComp是网络研究智能体的行业标准基准，“所有专有智能体”意味着Argus超越了Perplexity Deep Research、GPT-5 Research、Claude Research模式和Google Gemini Deep Research。

64个并行智能体如何保持上下文可控？

对于并行多智能体系统，一个典型的质疑是：上下文爆炸。如果每个搜索器生成2,000至5,000个令牌的证据轨迹，64路并行将产生12.8万至32万个令牌，超出大多数模型的上下文窗口。

Argus的解决方案：尽管规模扩展，导航器推理上下文仍保持在21,500个令牌以下。摘要中未详细说明具体技术，但推测采用了以下方法：

选择性证据投影——导航器读取的是结构化图表示，而非搜索器的原始输出
图级压缩——节点和边采用紧凑形式，而非全文
层次化摘要——搜索器输出在图集成前先行压缩

35B-A3B MoE主干网络

Argus使用350亿参数MoE（专家混合）主干网络，激活参数为30亿（A3B变体）。具体含义：

推理成本效益高——每次推理调用仅激活30亿参数，约为密集350亿模型成本的1/10
专业化分工——MoE中的不同专家可针对不同研究领域进行专业化
可扩展架构——无需指数级计算增长即可持续训练（增加更多专家）

对深度研究行业的意义

Argus的结果提出了几个重要问题：

专有护城河被侵蚀——若开源论文以64路并行搜索器实现BrowseComp 86.2分，Perplexity/OpenAI Deep Research的护城河何在？
成本格局转变——64路并行搜索器听起来昂贵，但基于30亿激活参数的MoE，总成本可能低于单个前沿模型的推演成本
无需重训即可扩展——论文指出框架支持”单搜索器或多路并行，无需重新训练”——这对负载波动的生产部署至关重要

本论文契合2026年智能体系统架构论文的趋势——这些论文正挑战专有领头羊的地位：GraphFlow（5月15日，形式化验证）、Dual-Dimensional Consistency（5月14日，令牌减少10倍）、CAST（5月14日，工具使用提升5.85pp）。它们共同表明，架构上的智慧优于纯粹的模型规模扩展，是生产级智能体工作负载的最优解。

arXiv:2605.16217 Argus：深度研究智能体的证据汇编架构，8路并行搜索器提升12.7个百分点