Microsoft Research:Memora——减少最多98%Token消耗并在长对话上达到SOTA的AI智能体记忆框架
Memora是Microsoft Research为长周期AI智能体设计的可扩展记忆框架。它引入谐波架构,将「存储什么」与「如何检索」分离,配合线索锚点和策略驱动检索器。在LoCoMo和LongMemEval基准上达到SOTA,与全上下文方法相比Token消耗最多减少98%。
本文由人工智能基于一手来源生成。
Memora是什么,解决了什么问题
智能体记忆——系统长期记住并利用先前上下文的能力——正成为生产AI解决方案的关键组件。进行长对话或长期项目的AI智能体面临根本性限制:每次需要历史信息时,都必须重新接收或从外部检索。Token消耗呈指数级增长,对话越长响应质量越差。Microsoft Research发布了Memora,一个面向长周期智能体(long-horizon agents)的可扩展记忆框架,从架构层面解决这一问题。该论文已被ICML 2026收录,源代码在GitHub上公开。
谐波架构:存储与检索作为两个独立关注点
Memora的核心创新是将存储与检索(retrieval)分离:存储什么——丰富的详细记忆内容——与如何检索——通过轻量级抽象和上下文锚点——相互独立。每条记忆条目有两个组件:主要抽象(6-8个词的短语)是进入向量数据库进行相似性检索的唯一部分;记忆值保留完整内容,仅供检索策略访问,而非直接搜索。
线索锚点(contextual anchors)作为元数据标签,在无需预定义本体的情况下为同一记忆开辟替代访问路径。关于项目协议的句子不会被分割成多个独立条目——以单个条目存储,附带多个锚点,每个锚点从不同上下文访问同一记忆。
为什么经典RAG对长周期智能体不够?
经典RAG(检索增强生成)通过简单的向量相似性搜索检索文档,不考虑对话上下文中当前相关内容的推理。Memora引入策略驱动检索器,将记忆检索视为主动推理:迭代精炼查询、通过线索锚点探索相关记忆,并自主决定何时停止搜索。该检索器可通过LLM推理运作,也可通过强化学习蒸馏为较小模型——从而在不依赖昂贵LLM调用的情况下扩展到生产场景。
结果:SOTA和98% Token减少
Memora在两个长对话参考基准上达到最优水平。在LoCoMo(600轮对话)上记录86.3%的LLM评判准确率,在LongMemEval(115,000 token上下文)上记录87.4%准确率——超越所有竞争对手:RAG、Mem0、Nemori、Zep、LangMem和消耗全部上下文而不过滤的全上下文推理。
效率是最显著的结果:与全上下文方法相比,Memora消耗最多98%更少的Token,直接降低生产智能体中API调用成本。同时,存储的记忆条目比Mem0少一半(344对651),准确率更高,在多跳推理任务上优势尤为突出——智能体需要综合长对话中相距遥远部分的信息。结果在两个基准上保持一致,证实了方法的可扩展性。
常见问题
- 什么是Memora,其核心创新是什么?
- Memora是AI智能体的记忆框架,将「存储什么」(丰富的记忆内容)与「如何检索」(轻量级抽象和线索锚点)分离,与全上下文方法相比Token消耗减少最多98%。
- Memora在哪些基准上达到SOTA?
- 在LoCoMo基准(600轮对话)上达到86.3%的LLM评判准确率,在LongMemEval基准(115,000 token上下文)上达到87.4%准确率——超越RAG、Mem0、LangMem等竞争方案。