MEMTIER：エージェント記憶でLongMemEval 0.05から0.38へ

MEMTIERは長期自律エージェント向けの五層メモリアーキテクチャです——LongMemEval-SベンチマークでQwen2.5-7Bを使用すると精度が0.050から0.382に跳ね上がり、72時間の動作後もツール実行成功率が低下しなくなります。

arXivに掲載されたこの論文は、長期自律エージェント特有の問題を初めて体系的に記録しています。ツール実行成功率は72時間の動作ウィンドウ内で14パーセントポイント低下します。その原因は古典的なRAGシステムが短期記憶と長期記憶を区別できず、古いコンテキストが関連シグナルを圧迫することです。

五層アーキテクチャは何をもたらしますか？

MEMTIERは五つの層を導入しています。生の記録用のエピソードJSONL層、五つのシグナル（時近性、頻度、顕著性、感情、タスク関連性）を持つ認知加重検索、適応的重み付け用のPPOベースポリシー、そしてエージェントのメインループ外で動作するエピソードからセマンティックメモリへの非同期統合です。

RAG（検索拡張生成）は、モデルが応答を生成する前に外部データベースから関連文書を検索するアーキテクチャです。PPO（近接ポリシー最適化）は標準的な強化学習アルゴリズムです——ここではエージェントが検索シグナルをどのように重み付けするかを学習します。

精度の向上はどれほどですか？

500の質問とコンシューマーハードウェア上のQwen2.5-7Bモデルを使ったLongMemEval-Sベンチマークで、精度はベースライン値の0.050から0.382に跳ね上がります。これは劇的な改善であり、エンタープライズインフラなしで長期エージェントを実用化への扉を開きます。

DeepSeek-V4-Flashの事前充填を使用すると、単一セクション検索は0.686から0.714に達し、BM25+GPT-4o RAGベースラインを上回ります。そのためMEMTIERは単なる学術的演習ではなく、エージェントが数日間作業するタスクのためのPinecone/Weaviateスタックへの具体的な代替手段となります。

これが開発者にとって重要な理由は？

カスタマーサポート、金融分析、または研究タスク向けの自律エージェントを構築するチームは、これまでエンタープライズ向けベクターデータベースか手動のコンテキスト管理に頼らざるを得ませんでした。MEMTIERは適切なメモリ層の分離と適応的重み付けの組み合わせによってハードウェア要件を大幅に削減できることをデモンストレーションしています。

非同期統合が本番環境の負荷の下でどのように振る舞うかはまだ見ていく必要がありますが、公開ベンチマークの結果はこのアーキテクチャが次世代オープンソースエージェントフレームワークの有力候補であることを示唆しています。

よくある質問

MEMTIERはどのような問題を解決しますか？

72時間のエージェント動作ウィンドウでツール実行成功率が14パーセントポイント低下する問題を解決します。これは古典的なRAGシステムでは短期記憶と長期記憶を区別できないため防げません。

コンシューマーハードウェアで動作できますか？

はい、著者たちはコンシューマーGPU構成でQwen2.5-7Bモデルを使用した結果をデモンストレーションしており、これはエンタープライズRAG設定と比べて大きな意義があります。

従来のBM25+GPT-4o RAGと比較してどうですか？

DeepSeek-V4-Flashでの事前充填を使用すると、MEMTIERは単一セクション検索で0.686から0.714に達し、BM25+GPT-4oベースラインを上回ります。

arXiv:2605.03675: MEMTIER — 五層メモリアーキテクチャが長期エージェントに記憶力を取り戻す

五層アーキテクチャは何をもたらしますか？

精度の向上はどれほどですか？

これが開発者にとって重要な理由は？

よくある質問

出典

関連ニュース