LongMINT：AI智能体与记忆——长期场景中准确率仅27.9%

LongMINT是首个测量AI智能体在长期动态场景中记忆管理能力的基准。包含15,600个问答对，上下文最长达180万个token，被测系统平均准确率仅为27.9%——在大量案例中低于随机猜测。

北卡罗来纳大学的研究人员发布了LongMINT——这是首个系统性衡量AI智能体在长期动态场景中记忆管理表现的基准。结果如何？平均准确率仅为27.9%——在大量案例中甚至低于随机猜测。

LongMINT是什么，测量什么

LongMINT（长期智能体系统中多目标干扰下的记忆测试）是一个包含15,600个问答对的基准，平均上下文长度为138,800个token——每个样本最多可达180万token。测试涵盖七类系统：普通语言模型、RAG系统和记忆增强智能体。

长期智能体是指必须在长序列步骤中保持准确信息的智能体——例如状态跟踪、多轮对话或代码版本控制。多目标干扰是指多条信息相互干扰的情况：后续数据修订了早期数据，系统必须知道哪个版本当前有效。

根本问题不在于上下文长度，而在于更新。当同一信息多次变更时——这在任何真实环境中都是常态——智能体始终如一地「记住」错误的、过时的数据。更新次数越多，精确度越低。瓶颈在于记忆的检索和重建，而不仅仅是存储。

LongMINT揭示了当前一代AI智能体的根本局限：在信息不断演变的任务中，它们是不可靠的。这直接影响所有自称能完成「自主助手」角色的系统——从编码到业务流程。在记忆层对干扰变得足够稳健之前，智能体仍是短会话工具，而非持续工作的助手。

常见问题

LongMINT基准测量什么，为何独特？

LongMINT测量AI智能体在长期场景中信息被多次更新时记忆管理的准确程度。其独特之处在于平均138,800个token（最多180万）的上下文，以及专注于多目标干扰——后续数据修订早期数据的情况。

为何平均准确率只有27.9%？

根本问题不是上下文长度，而是更新：当同一信息多次变更时，智能体始终如一地记住错误的、过时的数据。瓶颈在于记忆的检索和重建，而不仅仅是存储。

LongMINT基准中测试了哪些类别的AI系统？

测试了七个类别：普通语言模型、RAG系统和记忆增强智能体——为比较不同记忆管理架构方法提供了参考。