🟡 🤝 智能体 发布于: · 2 分钟阅读 ·

arXiv:2606.09900:Engram——双时态记忆引擎,分数提升 10.4 分且 token 用量减少 8 倍

arXiv:2606.09900 ↗

编辑插图:2606.09900:Engram——双时态记忆引擎,分数提升 10.4 分且 token 用量减少 8 倍

Engram 是一个开源记忆系统,它表明经过智能检索的「精简」上下文胜过加载整段对话历史。在 LongMemEval_S 基准上,它取得了 83.6% 的成绩,而 full-context 方法为 73.2%,所用 token 约少 8 倍。

🤖

本文由人工智能基于一手来源生成。

arXiv:2606.09900 于 2026 年 6 月 5 日 11:43 UTC 发布,介绍了 Engram——一个开源记忆系统,它表明经过智能检索的”精简”上下文(一组简洁、有针对性挑选的信息)胜过加载整段对话历史。结果表明,更多的上下文未必意味着更好的回答,决定性因素是检索的质量。

Engram 是什么,它解决什么问题?

Engram 关注的问题是如何在恰当的时刻向 AI 智能体提供恰当的知识,而不带来不必要的负担。常见的做法是将整段对话历史作为 full-context 加载,但这会消耗大量 token 并可能引入噪声。

与此相反,Engram 只检索相关的部分。由此它表明,精心挑选的、简洁的上下文可以给出比一次性将所有内容交给模型更好的结果。这是一次从数量向相关性的转变。

双过程架构是如何工作的?

Engram 采用建立在双时态数据模型之上的双过程架构(包含两个过程的架构)。第一个过程是快速写入路径,它无需 LLM 调用即可添加情节,从而使新信息的写入既廉价又快速。

第二个过程是异步路径,它在后台构建双时态知识图谱(knowledge graph)。它提取原子事实化解它们之间的矛盾。这种分工使系统能够同时快速记录新数据,并逐步构建一个有序、一致的知识模型。

双时态数据模型意味着什么?

双时态模型为每条信息追踪两个时间维度:事件何时发生,以及它何时被记录。这一区分使系统能够正确解读事件的时间顺序,并识别某条较晚的信息何时与较早的信息相冲突。

正是凭借这一模型,Engram 才能在构建其知识图谱的同时化解矛盾。系统不会堆砌相互矛盾的论断,而是维持一幅尊重时间的、连贯的知识图景。

基准测试的结果如何?

LongMemEval_S 基准上,Engram 取得了 83.6%,而 full-context 方法为 73.2%。这是 10.4 分的提升,在统计上极具说服力(McNemar p < 10⁻⁶)。

最令人印象深刻的是性能与成本之比。Engram 仅使用了约 9.6k 个检索到的 token,而非 79k,约少 8 倍。与此同时,它在全部 500 个问题上没有出现任何错误。这印证了论文的核心论点:智能、简洁的检索可以同时做到比加载整段历史更准确且更廉价。

为什么这种方法对 AI 智能体很重要?

对于进行长时间对话或通过众多步骤完成任务的自主 AI 智能体而言,记忆管理成为关键瓶颈。模型的上下文窗口是有限的,而用大量过往信息填满它会同时增加成本和出错风险。

Engram 为这一问题提供了实用的答案。由于它是开源的,开发团队可以将其集成到自己的智能体中,而不依赖封闭方案。无需 LLM 调用快速写入路径与后台构建知识图谱的组合,意味着系统可以随着对话历史一同增长,同时又不拖慢交互。LongMemEval_S 上的结果表明,这种方法有望成为构建智能体记忆层的标准。

常见问题

什么是 Engram?
Engram 是一个面向 AI 智能体的开源记忆系统,它表明经过智能检索的、精简的(「lean」)上下文胜过加载整段对话历史。它采用基于双时态数据模型的双过程架构。其目标是在显著降低 token 消耗的同时提供相关信息。
双时态数据模型意味着什么?
双时态模型追踪数据的两个时间维度——某事何时发生,以及它何时被记录。这使系统能够构建尊重时间顺序的知识,并化解事实之间的矛盾。Engram 在此基础上构建一个由原子事实构成的知识图谱(knowledge graph)。
Engram 在测试中有多成功?
在 LongMemEval_S 基准上,Engram 取得了 83.6% 的成绩,而 full-context 方法为 73.2%,提升了 10.4 分(McNemar p < 10⁻⁶)。它使用了约 9.6k 个检索到的 token,而非 79k,约少 8 倍,并且在全部 500 个问题上没有出现任何错误。