arXiv:2605.12061 SAGE: 自进化图记忆引擎在 Natural Questions 上达到 91.6% Recall@5
SAGE 是由王俊通等人于 2026 年 5 月 12 日在 arXiv 发表的面向 LLM 智能体的自进化图记忆引擎。该引擎采用记忆写入器与记忆读取器(图基础模型)构成的反馈循环,可自主扩展与重组。在 Natural Questions 的零样本开放域检索中,Recall@2/5 分别达到 82.5/91.6,并在 LongMemEval 与 HaluMem 幻觉指标上均有提升。
本文由人工智能基于一手来源生成。
王俊通、赵浩悦、潘广辉、王希远、王雁博、邓启言与张牧寒团队于 2026 年 5 月 12 日发布了 SAGE——一种自进化图记忆引擎,专门应对语言智能体中的长期记忆瓶颈,以及结构化检索与智能体反馈之间的动态协同问题。
传统 GraphRAG 为何不够用?
传统 RAG 和 GraphRAG 系统将记忆图视为静态检索索引——图构建完成后便不再变化,智能体无法引入新关联或重组知识。SAGE 的出发点在于:图的结构角色(如节点作为实体、边作为关系、邻域作为上下文)是可复用的信号,使得记忆能够在交互过程中持续成熟。
记忆写入器与记忆读取器如何协同工作?
SAGE 将两个组件整合为一个反馈循环。记忆写入器从智能体的交互历史中增量构建结构化图记忆——添加节点、边与结构标注。记忆读取器采用图基础模型进行检索,并将关键反馈回传写入器:哪些节点和边对回答有帮助、哪些结构环节出现了问题。这一循环使记忆能够通过读写通信自主进化。
基准测试的具体数据如何?
在 Natural Questions 的零样本开放域检索中,达到 Recall@2 82.5 与 Recall@5 91.6。经过两轮自进化后,多跳问答的平均排名最优——证实迭代反馈提升了图的质量。在 LongMemEval 与 HaluMem 基准上,长期记忆与幻觉指标均有改善。
训练与读写反馈同步提升了多项性能指标,SAGE 将图记忆定位为长周期语言智能体的核心基础——在这类场景中,每一次交互都必须融入不断增长的既有知识网络。
常见问题
- SAGE 与传统 GraphRAG 系统有何不同?
- 传统 RAG 和 GraphRAG 系统将记忆图视为静态检索索引;SAGE 将其视为动态长期记忆基底,通过自进化实现扩展与重组,并利用图中的结构角色提升记忆效果。
- 基准测试的具体结果如何?
- 在 Natural Questions 的零样本开放域检索中,Recall@2 达到 82.5,Recall@5 达到 91.6;经过两轮自进化后,多跳问答的平均排名最优;在 LongMemEval 与 HaluMem 基准上,长期记忆与幻觉指标均有改善。