Memora：减少98% Token消耗的AI智能体记忆框架

Memora是Microsoft Research为长周期AI智能体设计的可扩展记忆框架。它引入谐波架构，将「存储什么」与「如何检索」分离，配合线索锚点和策略驱动检索器。在LoCoMo和LongMemEval基准上达到SOTA，与全上下文方法相比Token消耗最多减少98%。

Memora是什么，解决了什么问题

智能体记忆——系统长期记住并利用先前上下文的能力——正成为生产AI解决方案的关键组件。进行长对话或长期项目的AI智能体面临根本性限制：每次需要历史信息时，都必须重新接收或从外部检索。Token消耗呈指数级增长，对话越长响应质量越差。Microsoft Research发布了Memora，一个面向长周期智能体（long-horizon agents）的可扩展记忆框架，从架构层面解决这一问题。该论文已被ICML 2026收录，源代码在GitHub上公开。

谐波架构：存储与检索作为两个独立关注点

Memora的核心创新是将存储与检索（retrieval）分离：存储什么——丰富的详细记忆内容——与如何检索——通过轻量级抽象和上下文锚点——相互独立。每条记忆条目有两个组件：主要抽象（6-8个词的短语）是进入向量数据库进行相似性检索的唯一部分；记忆值保留完整内容，仅供检索策略访问，而非直接搜索。

线索锚点（contextual anchors）作为元数据标签，在无需预定义本体的情况下为同一记忆开辟替代访问路径。关于项目协议的句子不会被分割成多个独立条目——以单个条目存储，附带多个锚点，每个锚点从不同上下文访问同一记忆。

为什么经典RAG对长周期智能体不够？

经典RAG（检索增强生成）通过简单的向量相似性搜索检索文档，不考虑对话上下文中当前相关内容的推理。Memora引入策略驱动检索器，将记忆检索视为主动推理：迭代精炼查询、通过线索锚点探索相关记忆，并自主决定何时停止搜索。该检索器可通过LLM推理运作，也可通过强化学习蒸馏为较小模型——从而在不依赖昂贵LLM调用的情况下扩展到生产场景。

结果：SOTA和98% Token减少

Memora在两个长对话参考基准上达到最优水平。在LoCoMo（600轮对话）上记录86.3%的LLM评判准确率，在LongMemEval（115,000 token上下文）上记录87.4%准确率——超越所有竞争对手：RAG、Mem0、Nemori、Zep、LangMem和消耗全部上下文而不过滤的全上下文推理。

效率是最显著的结果：与全上下文方法相比，Memora消耗最多98%更少的Token，直接降低生产智能体中API调用成本。同时，存储的记忆条目比Mem0少一半（344对651），准确率更高，在多跳推理任务上优势尤为突出——智能体需要综合长对话中相距遥远部分的信息。结果在两个基准上保持一致，证实了方法的可扩展性。

常见问题

什么是Memora，其核心创新是什么？

Memora是AI智能体的记忆框架，将「存储什么」（丰富的记忆内容）与「如何检索」（轻量级抽象和线索锚点）分离，与全上下文方法相比Token消耗减少最多98%。

Memora在哪些基准上达到SOTA？

在LoCoMo基准（600轮对话）上达到86.3%的LLM评判准确率，在LongMemEval基准（115,000 token上下文）上达到87.4%准确率——超越RAG、Mem0、LangMem等竞争方案。

Microsoft Research：Memora——减少最多98%Token消耗并在长对话上达到SOTA的AI智能体记忆框架

Memora是什么，解决了什么问题

谐波架构：存储与检索作为两个独立关注点

为什么经典RAG对长周期智能体不够？

结果：SOTA和98% Token减少

常见问题

来源

相关新闻