arXiv SAGE: 图记忆引擎 Recall@5 达 91.6%

SAGE 是由王俊通等人于 2026 年 5 月 12 日在 arXiv 发表的面向 LLM 智能体的自进化图记忆引擎。该引擎采用记忆写入器与记忆读取器（图基础模型）构成的反馈循环，可自主扩展与重组。在 Natural Questions 的零样本开放域检索中，Recall@2/5 分别达到 82.5/91.6，并在 LongMemEval 与 HaluMem 幻觉指标上均有提升。

王俊通、赵浩悦、潘广辉、王希远、王雁博、邓启言与张牧寒团队于 2026 年 5 月 12 日发布了 SAGE——一种自进化图记忆引擎，专门应对语言智能体中的长期记忆瓶颈，以及结构化检索与智能体反馈之间的动态协同问题。

传统 GraphRAG 为何不够用？

传统 RAG 和 GraphRAG 系统将记忆图视为静态检索索引——图构建完成后便不再变化，智能体无法引入新关联或重组知识。SAGE 的出发点在于：图的结构角色（如节点作为实体、边作为关系、邻域作为上下文）是可复用的信号，使得记忆能够在交互过程中持续成熟。

记忆写入器与记忆读取器如何协同工作？

SAGE 将两个组件整合为一个反馈循环。记忆写入器从智能体的交互历史中增量构建结构化图记忆——添加节点、边与结构标注。记忆读取器采用图基础模型进行检索，并将关键反馈回传写入器：哪些节点和边对回答有帮助、哪些结构环节出现了问题。这一循环使记忆能够通过读写通信自主进化。

基准测试的具体数据如何？

在 Natural Questions 的零样本开放域检索中，达到 Recall@2 82.5 与 Recall@5 91.6。经过两轮自进化后，多跳问答的平均排名最优——证实迭代反馈提升了图的质量。在 LongMemEval 与 HaluMem 基准上，长期记忆与幻觉指标均有改善。

训练与读写反馈同步提升了多项性能指标，SAGE 将图记忆定位为长周期语言智能体的核心基础——在这类场景中，每一次交互都必须融入不断增长的既有知识网络。

常见问题

SAGE 与传统 GraphRAG 系统有何不同？

传统 RAG 和 GraphRAG 系统将记忆图视为静态检索索引；SAGE 将其视为动态长期记忆基底，通过自进化实现扩展与重组，并利用图中的结构角色提升记忆效果。

基准测试的具体结果如何？

在 Natural Questions 的零样本开放域检索中，Recall@2 达到 82.5，Recall@5 达到 91.6；经过两轮自进化后，多跳问答的平均排名最优；在 LongMemEval 与 HaluMem 基准上，长期记忆与幻觉指标均有改善。

arXiv:2605.12061 SAGE: 自进化图记忆引擎在 Natural Questions 上达到 91.6% Recall@5

传统 GraphRAG 为何不够用？

记忆写入器与记忆读取器如何协同工作？

基准测试的具体数据如何？

常见问题

来源

相关新闻