🤖 24 AI
🔴 🤝 エージェント 2026年4月22日水曜日 · 4 分で読めます

Google ReasoningBank:再トレーニング不要でエージェントが経験から学習、WebArena成功率+8.3%

編集イラスト:迷宮の中のロボット、発光するノードが学習した経験を表す

なぜ重要か

GoogleはReasoningBankを発表しました。言語モデルの再トレーニングなしに、AIエージェントが自身の成功と失敗から学習できる記憶フレームワークです。WebArenaベンチマークで成功率8.3%向上、SWE-Bench-Verifiedで4.6%向上し、タスクあたり約3ステップを削減します。

Google ReasoningBank:再トレーニング不要でエージェントが経験から学習、WebArena成功率+8.3%

Google ResearchはReasoningBankを発表しました。AIエージェントが自身の過去の試み(成功・失敗の両方)から学習できる新しい記憶フレームワークで、言語モデルの再トレーニングは不要です。結果は2つの難度の高いベンチマークでの成功率の顕著な向上です。

何が起きているのか?

ReasoningBankは「継続的なクローズドループの検索、抽出、統合」として機能するフレームワークです——Googleの研究ブログの著者たちはこう説明しています。エージェントが行動を取る前に、バンクから関連する記憶を取得します。タスク実行後、LLM-as-a-judgeが結果を評価し、教訓を新しい記憶エントリとして蒸留します。

各記憶エントリには3つの部分が含まれています。戦略を識別する簡潔なタイトル、短い説明的サマリー、そして過去の経験から抽出された蒸留された推論ステップまたは操作上の洞察です。この構造により、エージェントは新しいタスクに関連する戦略を素早く検索し適用できます。

ReasoningBankの特徴は失敗からの学習への強調です。競合アプローチのSynapseが詳細なアクション軌跡を保存し、Agent Workflow Memoryが成功した試みのみに焦点を当てるのに対し、ReasoningBankは「エラーを予防的な教訓として蒸留」し、研究者が「戦略的ガードレール」と呼ぶものを構築します。

なぜこれが重要なのか?

Webナビゲーションの標準であるWebArenaベンチマークで、ReasoningBankは記憶なしのエージェントより成功率が8.3%高くなりました。SWE-Bench-Verified(実際のGitHubリポジトリでのソフトウェアエンジニアリングタスク解決の難度の高いベンチマーク)では、タスクあたり約3ステップ少なく4.6%の向上を達成しました。

重要な実用的側面は、これらの向上のためにモデルの重みを変更する必要がないことです。これは開発チームが既存のLLM(Gemini、GPT、Claude)の上にReasoningBankを重ねて適用でき、コストのかかるファインチューニングやモデルプロバイダーの保証を失うことなく使用できることを意味します。

エンタープライズアプリケーションでは、デプロイ中に改善され続けるエージェントへの扉が開かれます。すべてのインシデント、すべての失敗した操作がログ内の統計ではなく学習材料となります。これは業界が長い間求めてきたもの——機関知識を蓄積できるエージェント——の直接的な実現です。

研究チームはGoogle CloudのJun YanとChen-Yu Leeが率い、Siru Ouyang、Jiawei Han、Tomas Pfisterを含む15名の追加研究者が参加しています。

ReasoningBankは以前のアプローチとどう違うのか?

これまでエージェントメモリには2つの主要なアプローチが存在していました。最初のSynapseは詳細なアクション軌跡——各クリック、各入力、各ツール応答——を保存します。問題はこのアプローチが特定の具体的なタスクに特化しすぎてしまい、新しい状況への移行が難しいことです。

2番目のアプローチAgent Workflow Memoryは成功した軌跡のみに焦点を当てます。エージェントは何が機能するかを学習しますが、なぜ何かが機能しないかは学習しません。ReasoningBankはエージェントが成功より失敗が多いため、改善の最大の余地はまさに失敗から学習することにあると主張します。

3番目の違いは抽象化レベルです。生のアクションや結果を保存する代わりに、ReasoningBankは推論パターン——「戦略」——を蒸留します。これは1つのウェブサイトのタスクからの記憶が、戦略(「まず認証を確認し、次にレート制限をチェックし、それからアクションを実行する」)がドメインを越えて移転するため、全く異なるウェブサイトで役立てることができることを意味します。

今後の展開は?

フレームワーク自体に加えて、Googleは**MaTTS(メモリ対応テスト時スケーリング)**も発表しました。これは並列探索(複数の軌跡を並列に生成)と逐次的精緻化(1つの軌跡を反復的に改善)の2つのアプローチを通じて、実行時にメモリを使用してスケーリングするテクニックです。この追加は記憶とコンピューティングスケーリングが競合するメカニズムではなく相乗的なメカニズムであることを示しているため、特に興味深いです。

次のステップはReasoningBankをGoogleの製品エージェント——おそらくGemini Deep ResearchエージェントとGoogleのコーディングツール——に統合することです。詳細な方法論の論文は今後数週間でarXivなどの研究プラットフォームで発表される予定で、オープンソースのリファレンス実装も期待されています。

🤖

この記事はAIにより一次情報源から生成されました。