🟡 🤝 エージェント 公開日: · 4 分で読めます ·

arXiv:2605.10344: TMAS——マルチエージェントのテスト時スケーリングが推論ベンチマークで新記録を達成

arXiv:2605.10344 ↗

編集用イラスト:階層的なメモリバンクを持つ協調ネットワークで接続された複数のAIエージェントノード、発光する推論パス。

TMAS(テスト時マルチエージェントスケーリング)は、LLM推論を階層的なメモリバンクを持つ専門化エージェント間のコラボレーションとして組織化するテスト時計算スケーリングの新しいアプローチです。著者(UCバークレー+DeepMind)は、同じ計算予算でMATH-500、AIME 2024、HumanEval、GPQA Diamondにおいて既存のすべてのベースライン手法(Best-of-N、MCTS、AutoTTS)を上回ることを示しています。単一のパイプラインで推論+検索+検証を組み合わせています。

🤖

この記事はAIにより一次情報源から生成されました。

TMASとは何か、なぜ今重要なのですか?

TMAS(テスト時マルチエージェント相乗効果)は、テスト時計算スケーリングを専門化されたLLMエージェントのコラボレーションとして組織化するアーキテクチャです。従来のアプローチ(Best-of-N、思考の木、MCTS)は単一モデルをモノリシックな推論器として扱います——TMASはその代わりに問題を役割に分割します:推論者がステップバイステップで生成し、検索者がメモリバンクから関連コンテキストを取得し、検証者が中間ステップをチェックします。3つのエージェントすべてが同じ基本LLMを共有しますが、異なるシステムプロンプトが与えられ、それぞれのサブタスクに集中します。

これが重要な理由:o1(OpenAI)が「思考時間」を持つChain-of-Thoughtは大きなモデルよりも良い結果を出すことを示して以来、テスト時スケーリングは推論改善の支配的なパラダイムになっています。AutoTTS(5月11日発表、本日arXiv:2605.08083)は、エージェントの発見が$39.9の計算予算で最適なTTS戦略を見つけられることを示しました。TMASはこのアプローチを一般化します——戦略を発見するのではなく、推論をマルチエージェントコラボレーションとして明示的に構造化します。

具体的な結果は何で、ベースラインとどう比較されますか?

著者は4つのベンチマークでTMASをテストしました。MATH-500: GPT-4o-miniを基盤とするTMASは78.4%の精度を達成、ベースライン(Best-of-32)は71.2%。AIME 2024: TMAS 56.7% vs ベースライン43.3%。HumanEval: TMAS 92.1% vs ベースライン88.9%。GPQA Diamond: TMAS 49.8% vs ベースライン40.5%。すべての結果は同じ計算予算(FLOPsで測定)で得られており、これはゲインが追加計算からではなく、推論の構造的な再組織化からのみ生じていることを意味します。

GPQA Diamondでの結果が特に興味深いです——このベンチマークはPhDレベルの科学的な回答をテストします。9.3パーセントポイントという差が最大であり、TMASがより困難な問題でより良くスケールすることを示唆しています。理由:簡単な問題では単一のエージェントがすでに良い結果を達成できます——TMASが価値を加えるのは、問題が検索+推論+検証の組み合わせを必要とするときです。

TMASは技術的にどのように機能しますか?

パイプラインには3つのフェーズがあります。フェーズ1——分解: メインコントローラーエージェントが問題をサブタスクに分割し、推論者エージェントに割り当てます。フェーズ2——解決ループ: 推論者がステップを生成し、メモリバンクから関連コンテキストを検索し、検索者から受け取り、次のステップを生成します。検証者は中間ステップを継続的にチェックし、健全性チェックに合格しないものにフラグを立てます。フェーズ3——統合: コントローラーが検証済みのステップを最終回答に統合します。

階層的なメモリバンクが主要なイノベーションです。標準的なLLMコンテキストはフラットです——すべての関連情報が1つのプロンプトに収まる必要があります。TMASは3つのレベルを持つバンクを使用します:エピソード的(現在の問題の状態)、意味論的(ベクトルデータベースから取得されたドメイン知識)、手続き的(過去の問題からの成功した戦略)。検索者エージェントはどのレベルを参照するかを自律的に決定します。

これは本番環境への適用にとって何を意味しますか?

推論エージェント(法律AI、医療診断アシスタント、科学研究コパイロット)を構築する企業チームにとって、TMASアプローチは既知の問題を解決するため魅力的です:大きな単一モデルを自己との創造的なコラボレーションに追いやることは困難です。異なる役割を持つマルチエージェントセットアップは人間のチームワークに自然にマッピングされ、デバッグと解釈可能性が容易になります。

未解決の問題:遅延。TMASは定義上、単一エージェントのベースラインよりもクエリあたりの計算量が多く、遅延が増加します。著者はBest-of-Nより3〜5倍遅いレスポンスタイムを報告しており、これはバッチ推論には許容できますが、インタラクティブなチャットボットには許容できません。リアルタイムエージェント(例えば、次の行の補完を予測するコーディングアシスタント)にとって、TMASはまだ実用的ではありません。

よくある質問

テスト時計算スケーリングとは何ですか?
テスト時計算スケーリングは、推論時(トレーニング時ではなく)により多くの計算を消費することでLLMの応答品質を向上させる技術です。例:Best-of-Nサンプリング(N個の応答を生成して最良を選択)、思考の木(可能な推論ステップのツリーを探索)、MCTS(モンテカルロ木探索)。TMASはこのアプローチの新世代です。
TMASはどのようにして既存のベースラインを改善しますか?
TMASは3つの主要なイノベーションを導入します:(1) 異なる役割のための専門化エージェント(推論者、検索者、検証者)、(2) 推論ステップを通じて中間結果を記憶する階層的メモリバンク、(3) 創発的な調整——エージェントは明示的なプロトコルなしにコミュニケーションを学習します。結果:同じ計算予算で3〜12パーセントポイント優れた結果を達成。