arXiv:2605.07313：智能体记忆系统扩展性存在缺陷

论文 arXiv:2605.07313 提出了规模条件评估协议，测试智能体记忆系统在无关数据积累时是否仍能正常运作。HippoRAG 损失 16-20 个百分点的预算合规可靠性，LiCoMemory 随模型大小而变化。作者（Shao、Lu、Zhang、Luo）得出结论：可靠性损失并非个别现象。

一篇新 arXiv 论文（arXiv:2605.07313）提出了一个尖锐问题：当无关数据积累时，智能体记忆系统是否仍然运作良好？作者 Jiaqi Shao、Yiyi Lu、Yunzhen Zhang 和 Bing Luo 提出了规模条件评估协议，不仅衡量静态准确率，还衡量「随无关会话积累，证据是否仍然可用」。

基准测试衡量什么

该协议评估三种记忆接口类型——平面（flat）、平面层级（planar）和分层（hierarchical）——跨多个系统进行测试。衡量四项诊断指标：预算合规可靠性、极端规模下的记忆调用负载、错误模式分类以及可用扩展边界。

主要发现：HippoRAG 与 LiCoMemory

HippoRAG 保持在调用预算内，但随无关会话积累损失 16-20 个百分点的预算合规可靠性。这意味着它名义上运作，但在相同调用限制下给出越来越少的正确答案。

LiCoMemory 表现随模型大小变化：较小模型（Qwen3-8B）突破预算，而较大模型在测试范围内保持可靠。换言之，较小模型通过更多调用来补偿较弱的记忆能力——这超出了实际生产边界。

条件可扩展性

研究团队得出结论，「可靠性损失并非个别现象」，并倡导使用条件可扩展性声明——即针对特定智能体配置、接口设计、扩展范围和交互限制的扩展性声明。对于生产环境，这意味着「我们的记忆可以扩展」这样的通用表述已经不够——需要明确在何种条件下、使用何种系统才能成立。

常见问题

什么是 HippoRAG，它的表现如何？

HippoRAG 是受人类海马体记忆启发的智能体记忆系统。在新基准测试中，随着无关会话积累，它保持在允许的调用预算内，但损失 16-20 个百分点的预算合规可靠性——这使其在长期智能体部署中显得脆弱。

平面、平面层级和分层记忆接口有何区别？

平面记忆将记录保存在单一列表中（搜索线性扩展）。平面层级在一个层次上添加分组或索引。分层记忆将内存组织为树形或多个摘要层级。本研究在相同的规模条件协议下评估所有三种方法。

为何使用预算合规可靠性？

智能体在调用限制下运行——记忆查询是一种成本。预算合规可靠性衡量智能体在允许的记忆调用次数内获得正确答案的频率。如果系统「作弊」调用记忆 100 次，名义上达到准确率但无法在生产中使用。

arXiv:2605.07313：智能体记忆无法扩展——HippoRAG 随无关会话增多损失 16-20 个百分点可靠性

基准测试衡量什么

主要发现：HippoRAG 与 LiCoMemory

条件可扩展性

常见问题

来源

相关新闻