🟡 🤝 エージェント 公開日: · 4 分で読めます ·

arXiv:2605.16217 Argus:深層調査エージェント向けエビデンス・アセンブリ・アーキテクチャ、8並列サーチャーで+12.7pp達成

arXiv:2605.16217 ↗

Editorial illustration: knowledge graph s evidence node-ovima i parallel searcher agentima oko centralnog navigator-a.

Argusは、Zhen Zhang、Liangcai Su、Zhuo Chenらが2026年5月15日に発表したarXiv論文で、深層調査エージェント向けのエビデンス・アセンブリ・フレームワークを提案しています。システムはデュアルエージェント・アーキテクチャ――サーチャー(ReActスタイルのトレース)+ナビゲーター(共有エビデンス・グラフ+RL合成)――を採用し、シングル・サーチャーで+5.5pp、8並列で+12.7pp、64並列でコンテキスト超過なしにBrowseCompで86.2スコアを達成しています。

🤖

この記事はAIにより一次情報源から生成されました。

Zhen Zhang、Liangcai Su、Zhuo Chen、Xiang Lin、Haotian Xu、Simon Shaolei Du、Kaiyu Yang、Bo An、Lidong Bing、Xinyu Wangらは2026年5月15日、arXivに論文を発表し、深層調査エージェントにおける並列サーチ・エージェントの冗長性問題を解決する新しいアプローチ、Argusエビデンス・アセンブリ・フレームワークを提案しています。

並列サーチ・エージェントにおける冗長性問題とは?

現在の最先端深層調査システム(Perplexity Deep Research、OpenAI Deep Research、GPT-5 Researchモード)は一般的に並列ロールアウトを使用します。複数のモデル・インスタンスが同時に同じクエリを調査します。

問題は:ロールアウトが作業を重複させることです。3つの並列エージェントはしばしば:

  • 同じソースを検索する
  • 同一の文書を引用する
  • 補完的ではなく収束した洞察に至る

実際的な結果:トークン・コストは線形に増加しますが、情報利得は比例してスケールしません。8倍の並列処理が2〜3倍の改善しかもたらさない場合があり、最適なスケーリングとはほど遠い状況です。

エビデンス・アセンブリ・アーキテクチャが具体的に何をするのか

Argusは問題を再定式化します。深層調査をパズルの組み立てとして捉えるのです。各サーチャーが独立して問題全体を解決しようとする代わりに、フレームワークは責任を分担します。

サーチャー(ReActスタイルのトレース・コレクター)

  • ナビゲーターから割り当てられたサブクエリに対してReActスタイルのインタラクションを実行
  • エビデンス・トレース――サブクエリに関連する情報の断片――を収集
  • 構造化されたエビデンスを共有グラフに返す

ナビゲーター(グラフ・メンテナー+RL合成器)

  • すべてのサーチャーにわたる共有エビデンス・グラフを維持
  • 欠けている部分――エビデンス・グラフのギャップや不確かな接続――を特定
  • ターゲットを絞った探索のために新しいサーチャーをディスパッチ
  • 強化学習ポリシーを通じて最終回答を合成

重要な違いは:並列化が冗長性を生まないことです。各サーチャーはエビデンス全体の状態を把握しているナビゲーターから個別のサブクエリを受け取るからです。各新しいサーチャーは新しいピースを追加し、既存のものを重複させません。

論文が示すベンチマーク結果

論文は3つのスケーリング構成に対する正確な数値を示しています。

構成ベースラインからの改善
シングル・サーチャー+5.5ポイント
8並列サーチャー+12.7ポイント
64並列サーチャーBrowseCompで86.2

64並列サーチャーでのBrowseComp 86.2は「テスト済みのすべての専有エージェントを上回る」。BrowseCompはWebリサーチ・エージェントの業界標準ベンチマークであり、「すべての専有エージェント」はPerplexity Deep Research、GPT-5 Research、Claude Researchモード、Google Gemini Deep Researchを上回ることを示唆しているため、これは重要なシグナルです。

64個の並列エージェントでもコンテキストが管理可能なのはなぜか?

並列マルチエージェント・システムに対する典型的な懐疑的質問は:コンテキストの爆発です。各サーチャーが2〜5,000トークンのエビデンス・トレースを生成すると、64並列では12.8〜32万トークンになり、ほとんどのモデルのコンテキスト・ウィンドウを超えます。

Argusの答え:スケーリングにもかかわらず、ナビゲーターの推論コンテキストは21,500トークン未満に収まります。具体的な技術はアブストラクトでは詳述されていませんが、おそらく以下を使用していると考えられます。

  • 選択的エビデンス・プロジェクション――ナビゲーターはサーチャーの生の出力ではなく構造化されたグラフ表現を読む
  • グラフ・レベルの圧縮――ノードとエッジは全文ではなくコンパクトな形式
  • 階層的要約――サーチャーの出力はグラフ統合前に要約される

35B-A3B MoEバックボーン

Argusは350億パラメータのMoE(専門家混合)バックボーンとA3B(30億アクティブ・パラメータ)バリアントを使用しています。具体的な意味:

  • コスト効率の高い推論――推論コール当たりアクティブなのは30億パラメータのみで、密な350億モデルの約1/10のコスト
  • 専門的な専門性――MoE内の異なる専門家が異なる調査ドメインに特化できる
  • スケーラブルなアーキテクチャ――指数関数的な計算増加なしにさらに訓練(より多くの専門家を追加)できる

深層調査業界にとっての意味

Argusの結果はいくつかの重要な問いを提起します。

  • 専有の競合優位性の侵食――オープンソースの論文が64並列サーチャーでBrowseComp 86.2を達成するなら、Perplexity/OpenAI Deep Researchの競合優位性は何か?
  • コスト・ダイナミクスの変化――64並列サーチャーは高コストに聞こえますが、30億アクティブ・パラメータのMoEでは総コストが単一フロンティア・モデルのロールアウトより低い可能性があります
  • 再トレーニングなしでのスケーリング――論文はフレームワークが「シングル・サーチャーでも複数並列でも再トレーニングなしにスケーリングをサポートする」と述べており、負荷が変動する本番展開に重要です

この論文は、専有リーダーの地位に挑戦する2026年のエージェント・システム・アーキテクチャ論文のトレンドに沿うものです。GraphFlow(5月15日、形式的検証)、Dual-Dimensional Consistency(5月14日、10倍トークン削減)、CAST(5月14日、ツール使用+5.85pp)。これらすべてがアーキテクチャ上の賢いアプローチ > 生のモデル・スケーリングという結論を共有しており、本番のエージェント・ワークロードに適しています。

よくある質問

エビデンス・アセンブリ・アーキテクチャは具体的に何をしますか?
Argusは深層調査をパズルの組み立てとして捉えます。サーチャーはサブクエリに対してReActスタイルのインタラクションを実行し、エビデンス・トレースを収集します。ナビゲーターは共有エビデンス・グラフを維持し、欠けている部分を特定して新しいサーチャーをディスパッチし、強化学習を通じて最終回答を合成します。システムは再トレーニングなしに1、8、64個の並列サーチャーで動作します。
論文が示すベンチマーク結果はどのようなものですか?
シングル・サーチャー構成はベースラインより+5.5ポイント、8並列サーチャーは+12.7ポイントを達成します。64並列サーチャーはBrowseCompベンチマークで86.2スコアを達成し、テスト済みの専有調査エージェントをすべて上回ります。スケーリングにもかかわらず、ナビゲーターの推論コンテキストは21,500トークン未満に抑えられています。