LongMINT：AIエージェントとメモリ——長期シナリオでの精度27.9%

LongMINTは長期動的シナリオにおけるAIエージェントのメモリ管理を測定する初のベンチマークです。1万5,600の質問回答ペアを含み、コンテキストは最大180万トークンに達します。テスト対象システムの平均精度はわずか27.9%——多くのケースでランダムな推測を下回ります。

ノースカロライナ大学の研究者たちはLongMINTを発表しました——長期的で動的なシナリオにおけるAIエージェントのメモリ管理がいかに不十分であるかを体系的に測定する初のベンチマークです。結果は？平均精度わずか27.9%——多くのケースでランダムな推測よりも悪い結果です。

LongMINTとは何か、何を測定するのか

LongMINT（長期エージェントシステムにおける多目標干渉下のメモリ）は1万5,600の質問-回答ペアを持つベンチマークで、平均コンテキスト長は138,800トークン——サンプルごとに最大180万トークンです。七つのカテゴリのシステムをテストします。通常の言語モデル、RAGシステム、メモリ拡張エージェントです。

長期エージェントは長い一連のステップにわたって正確な情報を保持しなければならないエージェントです——状態追跡、複数ターンの対話、コードバージョン管理など。多目標干渉は複数の情報が相互に干渉する状況を指します。後のデータが以前のデータを修正し、システムはどのバージョンが現在有効かを知る必要があります。

なぜ27.9%の精度は驚くべきことではないのか

根本的な問題はコンテキストの長さではなく、更新です。同じ情報が複数回変更される場合——これはあらゆる実際の環境で普通のことです——エージェントは一貫して間違った、古くなったデータを「覚えて」います。更新が多いほど、精度は低下します。ボトルネックはメモリの検索と再構成であり、単なる保存ではありません。

これはエージェント開発にとって何を意味するのか

LongMINTは現世代AIエージェントの根本的な限界を明らかにしています。情報が進化するタスクでは信頼性がありません。これはコーディングからビジネスプロセスまで、「自律的なアシスタント」として長期タスクに使用されるすべてのシステムに直接影響します。メモリ層が干渉に対して堅牢になるまで、エージェントは継続的な作業のためではなく、短いセッションのためのツールであり続けます。

よくある質問

LongMINTベンチマークは何を測定し、なぜ独自なのですか？

LongMINTは長期シナリオで情報が複数回更新される際のAIエージェントのメモリ管理精度を測定します。平均138,800トークン（最大180万）のコンテキストと、後のデータが以前のデータを修正する多目標干渉への焦点が独自性です。

なぜ平均精度がわずか27.9%なのですか？

根本的な問題はコンテキストの長さではなく、更新です。同じ情報が複数回変更される場合、エージェントは一貫して間違った古いデータを記憶します。ボトルネックはメモリの検索と再構成であり、単なる保存ではありません。

LongMINTベンチマークではどのカテゴリのAIシステムがテストされましたか？

7つのカテゴリがテストされました。通常の言語モデル、RAGシステム、メモリ拡張エージェント——これにより長期メモリ管理に対する異なるアーキテクチャアプローチを比較できます。

arXiv:2605.18565：LongMINT——AIエージェントがなぜすべての情報を「忘れる」のか

LongMINTとは何か、何を測定するのか

なぜ27.9%の精度は驚くべきことではないのか

これはエージェント開発にとって何を意味するのか

よくある質問

出典

関連ニュース