🔴 🤝 エージェント 公開日: · 3 分で読めます ·

Microsoft Research: Memora — AIエージェントの記憶を最大98%少ないトークンとSOTAの長期会話で実現

エディトリアルイラスト:最大98%少ないトークンと長期会話SOTAによるAIエージェントの記憶Memora、テキストと顔なし

MemoraはMicrosoft Researchによる長期ホライズンAIエージェント向けのスケーラブルな記憶フレームワークです。何を保存するかと何を取得するかを分離するハーモニックアーキテクチャ、キューアンカー、ポリシー駆動型リトリーバーを導入します。LoCoMoおよびLongMemEvalベンチマークでSOTAを達成し、全コンテキストアプローチと比べてトークン消費を最大98%削減します。

🤖

この記事はAIにより一次情報源から生成されました。

Memoraとはどんな問題を解決するか

エージェント記憶 — 以前のコンテキストを長期的に記憶して使用するシステムの能力 — はプロダクションのAIソリューションの重要なコンポーネントになっています。長い会話や長期的なプロジェクトを処理するAIエージェントは根本的な制約に直面しています:古い情報が必要になるたびに、それを再度受け取るか外部から取得する必要があります。トークン消費は指数的に増加し、会話が長くなるほど応答の品質が低下します。Microsoft Researchは長期ホライズンエージェント(long-horizon agents)向けのスケーラブルな記憶フレームワークであるMemoraを発表し、この問題をアーキテクチャレベルで解決します。この研究はICML 2026で採択され、ソースコードはGitHubで一般公開されています。

ハーモニックアーキテクチャ:保存と取得を二つの別々の関心事として

Memoraの中核となるイノベーションは保存と取得(retrieval)の分離です:何を保存するか — 豊富で詳細な記憶コンテンツ — は、何を取得するか — 軽量な抽象化とコンテキストアンカーによって — とは別物です。各記憶エントリには二つのコンポーネントがあります:プライマリ抽象化(6〜8語のフレーズ)は類似度検索のためにベクターデータベースに入る唯一の部分です;記憶の値は完全なコンテンツを保持し、直接の検索ではなくリトリーバルポリシーのみがアクセスできます。

キューアンカー(コンテキストアンカー)は事前定義されたオントロジーなしに同じ記憶への代替経路を開くメタデータタグとして機能します。プロジェクト合意に関する文は複数の別々のエントリに断片化されません — 複数のアンカーとともに一度保存され、それぞれが異なるコンテキストから同じ記憶にアクセスします。

なぜ古典的なRAGは長期ホライズンエージェントに不十分なのか?

古典的なRAG(Retrieval-Augmented Generation)は会話のコンテキストで何が現在関連しているかについての推論なしに、単純なベクター類似度検索でドキュメントを取得します。Memoraはポリシー駆動型リトリーバーを導入し、記憶の取得をアクティブな推論として扱います:クエリを反復的に洗練させ、キューアンカーを通じて関連する記憶を探索し、いつ検索を止めるかを自律的に決定します。このリトリーバーはLLM推論によって機能させるか、強化学習によって小さいモデルに蒸留することができます — 各取得のための高価なLLM呼び出しに依存することなくプロダクションシナリオにスケールします。

結果:SOTAと98%少ないトークン

Memoraは長い会話の二つの参照ベンチマークで最先端を達成します。LoCoMo(600ターンの対話)でLLM審判による精度86.3%、LongMemEval(115,000トークンのコンテキスト)では精度87.4%を記録し — すべての競合を上回っています:RAG、Mem0、Nemori、Zep、LangMem、そしてフィルタリングなしにコンテキスト全体を消費する全コンテキスト推論。

効率性が最も劇的な結果です:Memoraは全コンテキストアプローチと比べて最大98%少ないトークンを消費し、プロダクションエージェントのAPIコストを直接削減します。同時に、Mem0より半分少ない記憶エントリを保存します(651に対して344)がより高い精度を達成し、エージェントが長い会話の離れた部分からの情報を組み合わせる必要があるマルチホップ推論(multi-hop reasoning)タスクで特に顕著な向上を示します。結果は両ベンチマークで一貫しており、アプローチのスケーラビリティを確認しています。

よくある質問

Memoraとは何で、その重要なイノベーションは何ですか?
MemoraはAIエージェント向けの記憶フレームワークで、何を保存するか(豊富な記憶コンテンツ)と何を取得するか(軽量な抽象化とキューアンカー)を分離することで、全コンテキストアプローチと比べてトークン消費を最大98%削減します。
MemoraはどのベンチマークでSOTA結果を達成しましたか?
LoCoMoベンチマーク(600ターンの対話)でLLM審判による精度86.3%を達成し、LongMemEvalベンチマーク(115,000トークンのコンテキスト)では精度87.4%を達成しました — RAG、Mem0、LangMem、その他の競合を上回っています。