ReasoningBankとは何ですか？

ReasoningBankはAIエージェント向けの記憶フレームワークで、過去の成功と失敗からの洞察を戦略として蒸留し、エージェントが新しいタスクを実行する前に活用できるようにします。

ReasoningBankはモデルの再トレーニングが必要ですか？

不要です。このフレームワークはテスト時学習を可能にします。エージェントはデプロイ中に記憶を蓄積し、モデルの重みに触れません。

パフォーマンス向上の幅は？

WebArenaベンチマークでReasoningBankは記憶なしのエージェントより成功率が8.3%高く、SWE-Bench-Verifiedでは4.6%高く、タスクあたり約3ステップ少なくなります。

Google ReasoningBank：再トレーニング不要でエージェントが経験から学習、WebArena成功率+8.3%

Google ResearchはReasoningBankを発表しました。AIエージェントが自身の過去の試み（成功・失敗の両方）から学習できる新しい記憶フレームワークで、言語モデルの再トレーニングは不要です。結果は2つの難度の高いベンチマークでの成功率の顕著な向上です。

何が起きているのか？

ReasoningBankは「継続的なクローズドループの検索、抽出、統合」として機能するフレームワークです——Googleの研究ブログの著者たちはこう説明しています。エージェントが行動を取る前に、バンクから関連する記憶を取得します。タスク実行後、LLM-as-a-judgeが結果を評価し、教訓を新しい記憶エントリとして蒸留します。

各記憶エントリには3つの部分が含まれています。戦略を識別する簡潔なタイトル、短い説明的サマリー、そして過去の経験から抽出された蒸留された推論ステップまたは操作上の洞察です。この構造により、エージェントは新しいタスクに関連する戦略を素早く検索し適用できます。

ReasoningBankの特徴は失敗からの学習への強調です。競合アプローチのSynapseが詳細なアクション軌跡を保存し、Agent Workflow Memoryが成功した試みのみに焦点を当てるのに対し、ReasoningBankは「エラーを予防的な教訓として蒸留」し、研究者が「戦略的ガードレール」と呼ぶものを構築します。

なぜこれが重要なのか？

Webナビゲーションの標準であるWebArenaベンチマークで、ReasoningBankは記憶なしのエージェントより成功率が8.3%高くなりました。SWE-Bench-Verified（実際のGitHubリポジトリでのソフトウェアエンジニアリングタスク解決の難度の高いベンチマーク）では、タスクあたり約3ステップ少なく4.6%の向上を達成しました。

重要な実用的側面は、これらの向上のためにモデルの重みを変更する必要がないことです。これは開発チームが既存のLLM（Gemini、GPT、Claude）の上にReasoningBankを重ねて適用でき、コストのかかるファインチューニングやモデルプロバイダーの保証を失うことなく使用できることを意味します。

エンタープライズアプリケーションでは、デプロイ中に改善され続けるエージェントへの扉が開かれます。すべてのインシデント、すべての失敗した操作がログ内の統計ではなく学習材料となります。これは業界が長い間求めてきたもの——機関知識を蓄積できるエージェント——の直接的な実現です。

研究チームはGoogle CloudのJun YanとChen-Yu Leeが率い、Siru Ouyang、Jiawei Han、Tomas Pfisterを含む15名の追加研究者が参加しています。

ReasoningBankは以前のアプローチとどう違うのか？

これまでエージェントメモリには2つの主要なアプローチが存在していました。最初のSynapseは詳細なアクション軌跡——各クリック、各入力、各ツール応答——を保存します。問題はこのアプローチが特定の具体的なタスクに特化しすぎてしまい、新しい状況への移行が難しいことです。

2番目のアプローチAgent Workflow Memoryは成功した軌跡のみに焦点を当てます。エージェントは何が機能するかを学習しますが、なぜ何かが機能しないかは学習しません。ReasoningBankはエージェントが成功より失敗が多いため、改善の最大の余地はまさに失敗から学習することにあると主張します。

3番目の違いは抽象化レベルです。生のアクションや結果を保存する代わりに、ReasoningBankは推論パターン——「戦略」——を蒸留します。これは1つのウェブサイトのタスクからの記憶が、戦略（「まず認証を確認し、次にレート制限をチェックし、それからアクションを実行する」）がドメインを越えて移転するため、全く異なるウェブサイトで役立てることができることを意味します。

今後の展開は？

フレームワーク自体に加えて、Googleは**MaTTS（メモリ対応テスト時スケーリング）**も発表しました。これは並列探索（複数の軌跡を並列に生成）と逐次的精緻化（1つの軌跡を反復的に改善）の2つのアプローチを通じて、実行時にメモリを使用してスケーリングするテクニックです。この追加は記憶とコンピューティングスケーリングが競合するメカニズムではなく相乗的なメカニズムであることを示しているため、特に興味深いです。

次のステップはReasoningBankをGoogleの製品エージェント——おそらくGemini Deep ResearchエージェントとGoogleのコーディングツール——に統合することです。詳細な方法論の論文は今後数週間でarXivなどの研究プラットフォームで発表される予定で、オープンソースのリファレンス実装も期待されています。

Google ReasoningBank：再トレーニング不要でエージェントが経験から学習、WebArena成功率+8.3%

Google ReasoningBank：再トレーニング不要でエージェントが経験から学習、WebArena成功率+8.3%

何が起きているのか？

なぜこれが重要なのか？

ReasoningBankは以前のアプローチとどう違うのか？

今後の展開は？

出典

関連ニュース