arXiv:2605.16217 Argus:深層調査エージェント向けエビデンス・アセンブリ・アーキテクチャ、8並列サーチャーで+12.7pp達成
Argusは、Zhen Zhang、Liangcai Su、Zhuo Chenらが2026年5月15日に発表したarXiv論文で、深層調査エージェント向けのエビデンス・アセンブリ・フレームワークを提案しています。システムはデュアルエージェント・アーキテクチャ――サーチャー(ReActスタイルのトレース)+ナビゲーター(共有エビデンス・グラフ+RL合成)――を採用し、シングル・サーチャーで+5.5pp、8並列で+12.7pp、64並列でコンテキスト超過なしにBrowseCompで86.2スコアを達成しています。
この記事はAIにより一次情報源から生成されました。
Zhen Zhang、Liangcai Su、Zhuo Chen、Xiang Lin、Haotian Xu、Simon Shaolei Du、Kaiyu Yang、Bo An、Lidong Bing、Xinyu Wangらは2026年5月15日、arXivに論文を発表し、深層調査エージェントにおける並列サーチ・エージェントの冗長性問題を解決する新しいアプローチ、Argusエビデンス・アセンブリ・フレームワークを提案しています。
並列サーチ・エージェントにおける冗長性問題とは?
現在の最先端深層調査システム(Perplexity Deep Research、OpenAI Deep Research、GPT-5 Researchモード)は一般的に並列ロールアウトを使用します。複数のモデル・インスタンスが同時に同じクエリを調査します。
問題は:ロールアウトが作業を重複させることです。3つの並列エージェントはしばしば:
- 同じソースを検索する
- 同一の文書を引用する
- 補完的ではなく収束した洞察に至る
実際的な結果:トークン・コストは線形に増加しますが、情報利得は比例してスケールしません。8倍の並列処理が2〜3倍の改善しかもたらさない場合があり、最適なスケーリングとはほど遠い状況です。
エビデンス・アセンブリ・アーキテクチャが具体的に何をするのか
Argusは問題を再定式化します。深層調査をパズルの組み立てとして捉えるのです。各サーチャーが独立して問題全体を解決しようとする代わりに、フレームワークは責任を分担します。
サーチャー(ReActスタイルのトレース・コレクター)
- ナビゲーターから割り当てられたサブクエリに対してReActスタイルのインタラクションを実行
- エビデンス・トレース――サブクエリに関連する情報の断片――を収集
- 構造化されたエビデンスを共有グラフに返す
ナビゲーター(グラフ・メンテナー+RL合成器)
- すべてのサーチャーにわたる共有エビデンス・グラフを維持
- 欠けている部分――エビデンス・グラフのギャップや不確かな接続――を特定
- ターゲットを絞った探索のために新しいサーチャーをディスパッチ
- 強化学習ポリシーを通じて最終回答を合成
重要な違いは:並列化が冗長性を生まないことです。各サーチャーはエビデンス全体の状態を把握しているナビゲーターから個別のサブクエリを受け取るからです。各新しいサーチャーは新しいピースを追加し、既存のものを重複させません。
論文が示すベンチマーク結果
論文は3つのスケーリング構成に対する正確な数値を示しています。
| 構成 | ベースラインからの改善 |
|---|---|
| シングル・サーチャー | +5.5ポイント |
| 8並列サーチャー | +12.7ポイント |
| 64並列サーチャー | BrowseCompで86.2 |
64並列サーチャーでのBrowseComp 86.2は「テスト済みのすべての専有エージェントを上回る」。BrowseCompはWebリサーチ・エージェントの業界標準ベンチマークであり、「すべての専有エージェント」はPerplexity Deep Research、GPT-5 Research、Claude Researchモード、Google Gemini Deep Researchを上回ることを示唆しているため、これは重要なシグナルです。
64個の並列エージェントでもコンテキストが管理可能なのはなぜか?
並列マルチエージェント・システムに対する典型的な懐疑的質問は:コンテキストの爆発です。各サーチャーが2〜5,000トークンのエビデンス・トレースを生成すると、64並列では12.8〜32万トークンになり、ほとんどのモデルのコンテキスト・ウィンドウを超えます。
Argusの答え:スケーリングにもかかわらず、ナビゲーターの推論コンテキストは21,500トークン未満に収まります。具体的な技術はアブストラクトでは詳述されていませんが、おそらく以下を使用していると考えられます。
- 選択的エビデンス・プロジェクション――ナビゲーターはサーチャーの生の出力ではなく構造化されたグラフ表現を読む
- グラフ・レベルの圧縮――ノードとエッジは全文ではなくコンパクトな形式
- 階層的要約――サーチャーの出力はグラフ統合前に要約される
35B-A3B MoEバックボーン
Argusは350億パラメータのMoE(専門家混合)バックボーンとA3B(30億アクティブ・パラメータ)バリアントを使用しています。具体的な意味:
- コスト効率の高い推論――推論コール当たりアクティブなのは30億パラメータのみで、密な350億モデルの約1/10のコスト
- 専門的な専門性――MoE内の異なる専門家が異なる調査ドメインに特化できる
- スケーラブルなアーキテクチャ――指数関数的な計算増加なしにさらに訓練(より多くの専門家を追加)できる
深層調査業界にとっての意味
Argusの結果はいくつかの重要な問いを提起します。
- 専有の競合優位性の侵食――オープンソースの論文が64並列サーチャーでBrowseComp 86.2を達成するなら、Perplexity/OpenAI Deep Researchの競合優位性は何か?
- コスト・ダイナミクスの変化――64並列サーチャーは高コストに聞こえますが、30億アクティブ・パラメータのMoEでは総コストが単一フロンティア・モデルのロールアウトより低い可能性があります
- 再トレーニングなしでのスケーリング――論文はフレームワークが「シングル・サーチャーでも複数並列でも再トレーニングなしにスケーリングをサポートする」と述べており、負荷が変動する本番展開に重要です
この論文は、専有リーダーの地位に挑戦する2026年のエージェント・システム・アーキテクチャ論文のトレンドに沿うものです。GraphFlow(5月15日、形式的検証)、Dual-Dimensional Consistency(5月14日、10倍トークン削減)、CAST(5月14日、ツール使用+5.85pp)。これらすべてがアーキテクチャ上の賢いアプローチ > 生のモデル・スケーリングという結論を共有しており、本番のエージェント・ワークロードに適しています。
よくある質問
- エビデンス・アセンブリ・アーキテクチャは具体的に何をしますか?
- Argusは深層調査をパズルの組み立てとして捉えます。サーチャーはサブクエリに対してReActスタイルのインタラクションを実行し、エビデンス・トレースを収集します。ナビゲーターは共有エビデンス・グラフを維持し、欠けている部分を特定して新しいサーチャーをディスパッチし、強化学習を通じて最終回答を合成します。システムは再トレーニングなしに1、8、64個の並列サーチャーで動作します。
- 論文が示すベンチマーク結果はどのようなものですか?
- シングル・サーチャー構成はベースラインより+5.5ポイント、8並列サーチャーは+12.7ポイントを達成します。64並列サーチャーはBrowseCompベンチマークで86.2スコアを達成し、テスト済みの専有調査エージェントをすべて上回ります。スケーリングにもかかわらず、ナビゲーターの推論コンテキストは21,500トークン未満に抑えられています。