テスト時計算スケーリングとは何ですか？

テスト時計算スケーリングは、推論時（トレーニング時ではなく）により多くの計算を消費することでLLMの応答品質を向上させる技術です。例：Best-of-Nサンプリング（N個の応答を生成して最良を選択）、思考の木（可能な推論ステップのツリーを探索）、MCTS（モンテカルロ木探索）。TMASはこのアプローチの新世代です。

TMASはどのようにして既存のベースラインを改善しますか？

TMASは3つの主要なイノベーションを導入します：(1) 異なる役割のための専門化エージェント（推論者、検索者、検証者）、(2) 推論ステップを通じて中間結果を記憶する階層的メモリバンク、(3) 創発的な調整——エージェントは明示的なプロトコルなしにコミュニケーションを学習します。結果：同じ計算予算で3〜12パーセントポイント優れた結果を達成。

arXiv:2605.10344: TMASマルチエージェント推論が歴史的新記録

TMAS（テスト時マルチエージェントスケーリング）は、LLM推論を階層的なメモリバンクを持つ専門化エージェント間のコラボレーションとして組織化するテスト時計算スケーリングの新しいアプローチです。著者（UCバークレー+DeepMind）は、同じ計算予算でMATH-500、AIME 2024、HumanEval、GPQA Diamondにおいて既存のすべてのベースライン手法（Best-of-N、MCTS、AutoTTS）を上回ることを示しています。単一のパイプラインで推論+検索+検証を組み合わせています。

TMASとは何か、なぜ今重要なのですか？

TMAS（テスト時マルチエージェント相乗効果）は、テスト時計算スケーリングを専門化されたLLMエージェントのコラボレーションとして組織化するアーキテクチャです。従来のアプローチ（Best-of-N、思考の木、MCTS）は単一モデルをモノリシックな推論器として扱います——TMASはその代わりに問題を役割に分割します：推論者がステップバイステップで生成し、検索者がメモリバンクから関連コンテキストを取得し、検証者が中間ステップをチェックします。3つのエージェントすべてが同じ基本LLMを共有しますが、異なるシステムプロンプトが与えられ、それぞれのサブタスクに集中します。

これが重要な理由：o1（OpenAI）が「思考時間」を持つChain-of-Thoughtは大きなモデルよりも良い結果を出すことを示して以来、テスト時スケーリングは推論改善の支配的なパラダイムになっています。AutoTTS（5月11日発表、本日arXiv:2605.08083）は、エージェントの発見が$39.9の計算予算で最適なTTS戦略を見つけられることを示しました。TMASはこのアプローチを一般化します——戦略を発見するのではなく、推論をマルチエージェントコラボレーションとして明示的に構造化します。

具体的な結果は何で、ベースラインとどう比較されますか？

著者は4つのベンチマークでTMASをテストしました。MATH-500： GPT-4o-miniを基盤とするTMASは78.4%の精度を達成、ベースライン（Best-of-32）は71.2%。AIME 2024： TMAS 56.7% vs ベースライン43.3%。HumanEval： TMAS 92.1% vs ベースライン88.9%。GPQA Diamond： TMAS 49.8% vs ベースライン40.5%。すべての結果は同じ計算予算（FLOPsで測定）で得られており、これはゲインが追加計算からではなく、推論の構造的な再組織化からのみ生じていることを意味します。

GPQA Diamondでの結果が特に興味深いです——このベンチマークはPhDレベルの科学的な回答をテストします。9.3パーセントポイントという差が最大であり、TMASがより困難な問題でより良くスケールすることを示唆しています。理由：簡単な問題では単一のエージェントがすでに良い結果を達成できます——TMASが価値を加えるのは、問題が検索+推論+検証の組み合わせを必要とするときです。

TMASは技術的にどのように機能しますか？

パイプラインには3つのフェーズがあります。フェーズ1——分解： メインコントローラーエージェントが問題をサブタスクに分割し、推論者エージェントに割り当てます。フェーズ2——解決ループ： 推論者がステップを生成し、メモリバンクから関連コンテキストを検索し、検索者から受け取り、次のステップを生成します。検証者は中間ステップを継続的にチェックし、健全性チェックに合格しないものにフラグを立てます。フェーズ3——統合： コントローラーが検証済みのステップを最終回答に統合します。

階層的なメモリバンクが主要なイノベーションです。標準的なLLMコンテキストはフラットです——すべての関連情報が1つのプロンプトに収まる必要があります。TMASは3つのレベルを持つバンクを使用します：エピソード的（現在の問題の状態）、意味論的（ベクトルデータベースから取得されたドメイン知識）、手続き的（過去の問題からの成功した戦略）。検索者エージェントはどのレベルを参照するかを自律的に決定します。

これは本番環境への適用にとって何を意味しますか？

推論エージェント（法律AI、医療診断アシスタント、科学研究コパイロット）を構築する企業チームにとって、TMASアプローチは既知の問題を解決するため魅力的です：大きな単一モデルを自己との創造的なコラボレーションに追いやることは困難です。異なる役割を持つマルチエージェントセットアップは人間のチームワークに自然にマッピングされ、デバッグと解釈可能性が容易になります。

未解決の問題：遅延。TMASは定義上、単一エージェントのベースラインよりもクエリあたりの計算量が多く、遅延が増加します。著者はBest-of-Nより3〜5倍遅いレスポンスタイムを報告しており、これはバッチ推論には許容できますが、インタラクティブなチャットボットには許容できません。リアルタイムエージェント（例えば、次の行の補完を予測するコーディングアシスタント）にとって、TMASはまだ実用的ではありません。

arXiv:2605.10344: TMAS——マルチエージェントのテスト時スケーリングが推論ベンチマークで新記録を達成

TMASとは何か、なぜ今重要なのですか？

具体的な結果は何で、ベースラインとどう比較されますか？

TMASは技術的にどのように機能しますか？

これは本番環境への適用にとって何を意味しますか？

よくある質問

出典

関連ニュース