arXiv:2605.07313：エージェントメモリはスケールに問題がある

arXiv:2605.07313 は、無関係なデータが蓄積する際にエージェントメモリシステムが機能し続けるかをテストするスケール条件付き評価プロトコルです。HippoRAG は 16〜20 パーセントポイントの予算準拠信頼性を失い、LiCoMemory はモデルサイズによって変動します。著者（Shao・Lu・Zhang・Luo）は信頼性損失が孤立した現象ではないと結論づけています。

新しい arXiv 論文（arXiv:2605.07313）は鋭い問いを立てます：無関係なデータが蓄積する際に、エージェントメモリシステムはうまく機能するのか？著者の Jiaqi Shao・Yiyi Lu・Yunzhen Zhang・Bing Luo は静的な正確性だけでなく、「無関係なセッションが蓄積するにつれて証拠が使用可能かどうか」を測定するスケール条件付き評価プロトコルを提示します。

ベンチマークが測定するもの

プロトコルは 3 種のメモリインターフェースタイプを評価します——フラット（flat）・プレーナー（planar）・階層的（hierarchical）——複数のシステムにわたって。4 つの診断的な指標を測定します：予算準拠信頼性・極端なスケールでのメモリ呼び出し負荷・エラーモードの分類・使用可能なスケールの境界。

主な発見：HippoRAG と LiCoMemory

HippoRAG は呼び出し予算内に留まりますが、無関係なセッションが蓄積するにつれて 16〜20 パーセントポイントの予算準拠信頼性を失います。つまり名目上は動作しますが、同じ呼び出し制約のもとでますます少ない正解を返します。

LiCoMemory はモデルサイズによって変動を示します：小型モデル（Qwen3-8B）は予算を超えますが、大型モデルはテスト済み範囲内で信頼性を維持します。言い換えると、小型モデルはより弱いメモリを補うためにより多くの呼び出しを行い——これは実用的な限界を超えています。

条件付きスケーラビリティ

チームは「信頼性損失は孤立した現象ではない」と結論づけ、条件付きスケーラビリティの主張を提唱しています——特定のエージェント設定・インターフェース設計・スケール範囲・インタラクション制約に関するスケーラビリティの主張です。本番環境では「我々のメモリはスケールする」という一般的な声明はもはや不十分であり、どのような条件下でどのシステムで成立するかを明示する必要があります。

よくある質問

HippoRAG とは何ですか？どのような動作をしますか？

HippoRAG は人間の海馬想起にヒントを得たエージェントメモリシステムです。新しいベンチマークでは許可された呼び出し予算内に留まりますが、無関係なセッションが蓄積するにつれて 16〜20 パーセントポイントの予算準拠信頼性を失い、長期的なエージェントデプロイメントで脆弱であることが示されています。

フラット・プレーナー・階層的メモリインターフェースの違いは何ですか？

フラットメモリはレコードを単一のリストに保持します（検索は線形にスケール）。プレーナーは 1 つのレベルでグループ化またはインデックスを追加します。階層的はメモリをツリーや複数の要約レベルに組織化します。本研究は 3 つのアプローチを同じスケール条件プロトコルで評価しています。

予算準拠信頼性とは何ですか？

エージェントは呼び出し制約のもとで動作します——メモリクエリはコストです。予算準拠信頼性は、エージェントが許可されたメモリ呼び出し回数内で正解を得る頻度を測定します。システムが 100 回メモリを呼び出すことで「チート」するなら、名目上は正確性を達成しますが本番では使用できません。

arXiv:2605.07313：エージェントメモリはスケールしない——HippoRAG が無関係セッション増加で 16〜20 ポイントの信頼性を失う

ベンチマークが測定するもの

主な発見：HippoRAG と LiCoMemory

条件付きスケーラビリティ

よくある質問

出典

関連ニュース