エビデンス・アセンブリ・アーキテクチャは具体的に何をしますか？

Argusは深層調査をパズルの組み立てとして捉えます。サーチャーはサブクエリに対してReActスタイルのインタラクションを実行し、エビデンス・トレースを収集します。ナビゲーターは共有エビデンス・グラフを維持し、欠けている部分を特定して新しいサーチャーをディスパッチし、強化学習を通じて最終回答を合成します。システムは再トレーニングなしに1、8、64個の並列サーチャーで動作します。

論文が示すベンチマーク結果はどのようなものですか？

シングル・サーチャー構成はベースラインより+5.5ポイント、8並列サーチャーは+12.7ポイントを達成します。64並列サーチャーはBrowseCompベンチマークで86.2スコアを達成し、テスト済みの専有調査エージェントをすべて上回ります。スケーリングにもかかわらず、ナビゲーターの推論コンテキストは21,500トークン未満に抑えられています。

arXiv Argus：64並列サーチャーでBrowseComp 86.2達成

Argusは、Zhen Zhang、Liangcai Su、Zhuo Chenらが2026年5月15日に発表したarXiv論文で、深層調査エージェント向けのエビデンス・アセンブリ・フレームワークを提案しています。システムはデュアルエージェント・アーキテクチャ――サーチャー（ReActスタイルのトレース）+ナビゲーター（共有エビデンス・グラフ+RL合成）――を採用し、シングル・サーチャーで+5.5pp、8並列で+12.7pp、64並列でコンテキスト超過なしにBrowseCompで86.2スコアを達成しています。

Zhen Zhang、Liangcai Su、Zhuo Chen、Xiang Lin、Haotian Xu、Simon Shaolei Du、Kaiyu Yang、Bo An、Lidong Bing、Xinyu Wangらは2026年5月15日、arXivに論文を発表し、深層調査エージェントにおける並列サーチ・エージェントの冗長性問題を解決する新しいアプローチ、Argusエビデンス・アセンブリ・フレームワークを提案しています。

並列サーチ・エージェントにおける冗長性問題とは？

現在の最先端深層調査システム（Perplexity Deep Research、OpenAI Deep Research、GPT-5 Researchモード）は一般的に並列ロールアウトを使用します。複数のモデル・インスタンスが同時に同じクエリを調査します。

問題は：ロールアウトが作業を重複させることです。3つの並列エージェントはしばしば：

同じソースを検索する
同一の文書を引用する
補完的ではなく収束した洞察に至る

実際的な結果：トークン・コストは線形に増加しますが、情報利得は比例してスケールしません。8倍の並列処理が2〜3倍の改善しかもたらさない場合があり、最適なスケーリングとはほど遠い状況です。

エビデンス・アセンブリ・アーキテクチャが具体的に何をするのか

Argusは問題を再定式化します。深層調査をパズルの組み立てとして捉えるのです。各サーチャーが独立して問題全体を解決しようとする代わりに、フレームワークは責任を分担します。

サーチャー（ReActスタイルのトレース・コレクター）

ナビゲーターから割り当てられたサブクエリに対してReActスタイルのインタラクションを実行
エビデンス・トレース――サブクエリに関連する情報の断片――を収集
構造化されたエビデンスを共有グラフに返す

ナビゲーター（グラフ・メンテナー+RL合成器）

すべてのサーチャーにわたる共有エビデンス・グラフを維持
欠けている部分――エビデンス・グラフのギャップや不確かな接続――を特定
ターゲットを絞った探索のために新しいサーチャーをディスパッチ
強化学習ポリシーを通じて最終回答を合成

重要な違いは：並列化が冗長性を生まないことです。各サーチャーはエビデンス全体の状態を把握しているナビゲーターから個別のサブクエリを受け取るからです。各新しいサーチャーは新しいピースを追加し、既存のものを重複させません。

論文が示すベンチマーク結果

論文は3つのスケーリング構成に対する正確な数値を示しています。

構成	ベースラインからの改善
シングル・サーチャー	+5.5ポイント
8並列サーチャー	+12.7ポイント
64並列サーチャー	BrowseCompで86.2

64並列サーチャーでのBrowseComp 86.2は「テスト済みのすべての専有エージェントを上回る」。BrowseCompはWebリサーチ・エージェントの業界標準ベンチマークであり、「すべての専有エージェント」はPerplexity Deep Research、GPT-5 Research、Claude Researchモード、Google Gemini Deep Researchを上回ることを示唆しているため、これは重要なシグナルです。

64個の並列エージェントでもコンテキストが管理可能なのはなぜか？

並列マルチエージェント・システムに対する典型的な懐疑的質問は：コンテキストの爆発です。各サーチャーが2〜5,000トークンのエビデンス・トレースを生成すると、64並列では12.8〜32万トークンになり、ほとんどのモデルのコンテキスト・ウィンドウを超えます。

Argusの答え：スケーリングにもかかわらず、ナビゲーターの推論コンテキストは21,500トークン未満に収まります。具体的な技術はアブストラクトでは詳述されていませんが、おそらく以下を使用していると考えられます。

選択的エビデンス・プロジェクション――ナビゲーターはサーチャーの生の出力ではなく構造化されたグラフ表現を読む
グラフ・レベルの圧縮――ノードとエッジは全文ではなくコンパクトな形式
階層的要約――サーチャーの出力はグラフ統合前に要約される

35B-A3B MoEバックボーン

Argusは350億パラメータのMoE（専門家混合）バックボーンとA3B（30億アクティブ・パラメータ）バリアントを使用しています。具体的な意味：

コスト効率の高い推論――推論コール当たりアクティブなのは30億パラメータのみで、密な350億モデルの約1/10のコスト
専門的な専門性――MoE内の異なる専門家が異なる調査ドメインに特化できる
スケーラブルなアーキテクチャ――指数関数的な計算増加なしにさらに訓練（より多くの専門家を追加）できる

深層調査業界にとっての意味

Argusの結果はいくつかの重要な問いを提起します。

専有の競合優位性の侵食――オープンソースの論文が64並列サーチャーでBrowseComp 86.2を達成するなら、Perplexity/OpenAI Deep Researchの競合優位性は何か？
コスト・ダイナミクスの変化――64並列サーチャーは高コストに聞こえますが、30億アクティブ・パラメータのMoEでは総コストが単一フロンティア・モデルのロールアウトより低い可能性があります
再トレーニングなしでのスケーリング――論文はフレームワークが「シングル・サーチャーでも複数並列でも再トレーニングなしにスケーリングをサポートする」と述べており、負荷が変動する本番展開に重要です

この論文は、専有リーダーの地位に挑戦する2026年のエージェント・システム・アーキテクチャ論文のトレンドに沿うものです。GraphFlow（5月15日、形式的検証）、Dual-Dimensional Consistency（5月14日、10倍トークン削減）、CAST（5月14日、ツール使用+5.85pp）。これらすべてがアーキテクチャ上の賢いアプローチ > 生のモデル・スケーリングという結論を共有しており、本番のエージェント・ワークロードに適しています。

arXiv:2605.16217 Argus：深層調査エージェント向けエビデンス・アセンブリ・アーキテクチャ、8並列サーチャーで+12.7pp達成