Engram：双时态记忆，提升 10.4 分

Q: 什么是 Engram？

Engram 是一个面向 AI 智能体的开源记忆系统，它表明经过智能检索的、精简的（「lean」）上下文胜过加载整段对话历史。它采用基于双时态数据模型的双过程架构。其目标是在显著降低 token 消耗的同时提供相关信息。

Q: 双时态数据模型意味着什么？

双时态模型追踪数据的两个时间维度——某事何时发生，以及它何时被记录。这使系统能够构建尊重时间顺序的知识，并化解事实之间的矛盾。Engram 在此基础上构建一个由原子事实构成的知识图谱（knowledge graph）。

Q: Engram 在测试中有多成功？

在 LongMemEval_S 基准上，Engram 取得了 83.6% 的成绩，而 full-context 方法为 73.2%，提升了 10.4 分（McNemar p < 10⁻⁶）。它使用了约 9.6k 个检索到的 token，而非 79k，约少 8 倍，并且在全部 500 个问题上没有出现任何错误。

Engram 是一个开源记忆系统，它表明经过智能检索的「精简」上下文胜过加载整段对话历史。在 LongMemEval_S 基准上，它取得了 83.6% 的成绩，而 full-context 方法为 73.2%，所用 token 约少 8 倍。

arXiv:2606.09900 于 2026 年 6 月 5 日 11:43 UTC 发布，介绍了 Engram——一个开源记忆系统，它表明经过智能检索的”精简”上下文（一组简洁、有针对性挑选的信息）胜过加载整段对话历史。结果表明，更多的上下文未必意味着更好的回答，决定性因素是检索的质量。

Engram 是什么，它解决什么问题？

Engram 关注的问题是如何在恰当的时刻向 AI 智能体提供恰当的知识，而不带来不必要的负担。常见的做法是将整段对话历史作为 full-context 加载，但这会消耗大量 token 并可能引入噪声。

与此相反，Engram 只检索相关的部分。由此它表明，精心挑选的、简洁的上下文可以给出比一次性将所有内容交给模型更好的结果。这是一次从数量向相关性的转变。

双过程架构是如何工作的？

Engram 采用建立在双时态数据模型之上的双过程架构（包含两个过程的架构）。第一个过程是快速写入路径，它无需 LLM 调用即可添加情节，从而使新信息的写入既廉价又快速。

第二个过程是异步路径，它在后台构建双时态知识图谱（knowledge graph）。它提取原子事实并化解它们之间的矛盾。这种分工使系统能够同时快速记录新数据，并逐步构建一个有序、一致的知识模型。

双时态数据模型意味着什么？

双时态模型为每条信息追踪两个时间维度：事件何时发生，以及它何时被记录。这一区分使系统能够正确解读事件的时间顺序，并识别某条较晚的信息何时与较早的信息相冲突。

正是凭借这一模型，Engram 才能在构建其知识图谱的同时化解矛盾。系统不会堆砌相互矛盾的论断，而是维持一幅尊重时间的、连贯的知识图景。

基准测试的结果如何？

在 LongMemEval_S 基准上，Engram 取得了 83.6%，而 full-context 方法为 73.2%。这是 10.4 分的提升，在统计上极具说服力（McNemar p < 10⁻⁶）。

最令人印象深刻的是性能与成本之比。Engram 仅使用了约 9.6k 个检索到的 token，而非 79k，约少 8 倍。与此同时，它在全部 500 个问题上没有出现任何错误。这印证了论文的核心论点：智能、简洁的检索可以同时做到比加载整段历史更准确且更廉价。

为什么这种方法对 AI 智能体很重要？

对于进行长时间对话或通过众多步骤完成任务的自主 AI 智能体而言，记忆管理成为关键瓶颈。模型的上下文窗口是有限的，而用大量过往信息填满它会同时增加成本和出错风险。

Engram 为这一问题提供了实用的答案。由于它是开源的，开发团队可以将其集成到自己的智能体中，而不依赖封闭方案。无需 LLM 调用的快速写入路径与后台构建知识图谱的组合，意味着系统可以随着对话历史一同增长，同时又不拖慢交互。LongMemEval_S 上的结果表明，这种方法有望成为构建智能体记忆层的标准。

常见问题

什么是 Engram？

Engram 是一个面向 AI 智能体的开源记忆系统，它表明经过智能检索的、精简的（「lean」）上下文胜过加载整段对话历史。它采用基于双时态数据模型的双过程架构。其目标是在显著降低 token 消耗的同时提供相关信息。

双时态数据模型意味着什么？

双时态模型追踪数据的两个时间维度——某事何时发生，以及它何时被记录。这使系统能够构建尊重时间顺序的知识，并化解事实之间的矛盾。Engram 在此基础上构建一个由原子事实构成的知识图谱（knowledge graph）。

Engram 在测试中有多成功？

在 LongMemEval_S 基准上，Engram 取得了 83.6% 的成绩，而 full-context 方法为 73.2%，提升了 10.4 分（McNemar p < 10⁻⁶）。它使用了约 9.6k 个检索到的 token，而非 79k，约少 8 倍，并且在全部 500 个问题上没有出现任何错误。

arXiv:2606.09900：Engram——双时态记忆引擎，分数提升 10.4 分且 token 用量减少 8 倍

Engram 是什么，它解决什么问题？

双过程架构是如何工作的？

双时态数据模型意味着什么？

基准测试的结果如何？

为什么这种方法对 AI 智能体很重要？

常见问题

来源

相关新闻