🟢 🤝 智能体 发布于: · 1 分钟阅读 ·

arXiv:2605.18565:LongMINT——揭示AI智能体为何「遗忘」所有信息

arXiv:2605.18565 ↗

Editorial illustration:

LongMINT是首个测量AI智能体在长期动态场景中记忆管理能力的基准。包含15,600个问答对,上下文最长达180万个token,被测系统平均准确率仅为27.9%——在大量案例中低于随机猜测。

🤖

本文由人工智能基于一手来源生成。

北卡罗来纳大学的研究人员发布了LongMINT——这是首个系统性衡量AI智能体在长期动态场景中记忆管理表现的基准。结果如何?平均准确率仅为27.9%——在大量案例中甚至低于随机猜测。

LongMINT是什么,测量什么

LongMINT(长期智能体系统中多目标干扰下的记忆测试)是一个包含15,600个问答对的基准,平均上下文长度为138,800个token——每个样本最多可达180万token。测试涵盖七类系统:普通语言模型、RAG系统和记忆增强智能体。

长期智能体是指必须在长序列步骤中保持准确信息的智能体——例如状态跟踪、多轮对话或代码版本控制。多目标干扰是指多条信息相互干扰的情况:后续数据修订了早期数据,系统必须知道哪个版本当前有效。

为何27.9%的准确率并不令人意外

根本问题不在于上下文长度,而在于更新。当同一信息多次变更时——这在任何真实环境中都是常态——智能体始终如一地「记住」错误的、过时的数据。更新次数越多,精确度越低。瓶颈在于记忆的检索和重建,而不仅仅是存储。

这对智能体开发意味着什么

LongMINT揭示了当前一代AI智能体的根本局限:在信息不断演变的任务中,它们是不可靠的。这直接影响所有自称能完成「自主助手」角色的系统——从编码到业务流程。在记忆层对干扰变得足够稳健之前,智能体仍是短会话工具,而非持续工作的助手。

常见问题

LongMINT基准测量什么,为何独特?
LongMINT测量AI智能体在长期场景中信息被多次更新时记忆管理的准确程度。其独特之处在于平均138,800个token(最多180万)的上下文,以及专注于多目标干扰——后续数据修订早期数据的情况。
为何平均准确率只有27.9%?
根本问题不是上下文长度,而是更新:当同一信息多次变更时,智能体始终如一地记住错误的、过时的数据。瓶颈在于记忆的检索和重建,而不仅仅是存储。
LongMINT基准中测试了哪些类别的AI系统?
测试了七个类别:普通语言模型、RAG系统和记忆增强智能体——为比较不同记忆管理架构方法提供了参考。