什么是ReasoningBank？

ReasoningBank是AI智能体的记忆框架，它将过去成功与失败的经验提炼为策略，供智能体在执行新任务前使用。

ReasoningBank需要重新训练模型吗？

不需要。该框架实现了测试时学习——智能体在部署期间积累记忆，无需触及模型权重。

在WebArena基准测试中，ReasoningBank比无记忆智能体成功率高8.3%；在SWE-Bench-Verified中高4.6%，且每个任务减少约3个步骤。

Google Research推出了ReasoningBank——一个新型记忆框架，让AI智能体能够从自身过去的尝试（包括成功和失败）中学习，而无需重新训练（retrain）语言模型。结果是在两个具有挑战性的基准测试中成功率显著提升。

ReasoningBank是一个运作如”持续闭环检索、提取和整合”的框架——这是Google研究博客作者的描述。在智能体采取行动之前，它从记忆库中检索相关记忆；任务执行完成后，LLM-as-a-judge评估结果，并将经验教训提炼为新的记忆条目。

每个记忆条目包含三个部分：标识策略的简洁标题、简短的描述性摘要，以及从过去经验中提炼出的推理步骤或操作洞见。这种结构使智能体能够快速搜索并将相关策略应用于新任务。

ReasoningBank的特点在于强调从失败中学习。竞争性方法如Synapse存储详尽的动作轨迹，而Agent Workflow Memory仅关注成功的尝试，ReasoningBank则”将错误提炼为预防性经验教训”，构建研究人员所称的”战略护栏”。

在WebArena基准测试（网页导航标准）上，ReasoningBank比无记忆智能体成功率高8.3%。在SWE-Bench-Verified（解决真实GitHub仓库软件工程任务的挑战性基准测试）上，提升了4.6%，每个任务减少约3个步骤。

关键的实际意义在于这些收益不需要更改模型权重。这意味着开发团队可以将ReasoningBank叠加在现有LLM（Gemini、GPT、Claude）之上，无需昂贵的微调或失去模型供应商的保证。

对于企业应用，这为在部署过程中不断改进的智能体打开了大门——每次事故、每次失败的操作都成为学习材料，而不仅仅是日志中的统计数据。这是行业长期呼唤的东西的直接实现：能够积累机构知识的智能体。

研究团队由Google Cloud的Jun Yan和Chen-Yu Lee领导，另有15名研究人员，包括Siru Ouyang、Jiawei Han和Tomas Pfister。

此前存在两种主要的智能体记忆方法。第一种Synapse存储详尽的动作轨迹——每次点击、每次输入、每个工具响应。问题是这种方法很快变得过于针对某个具体任务，难以迁移到新情况。

第二种方法Agent Workflow Memory仅关注成功的轨迹——智能体学习什么有效，但不知道为什么某些东西无效。ReasoningBank认为这是局限性的，因为智能体失败的频率高于成功，因此最大的改进空间恰恰在于从失败中学习。

第三个区别是抽象层次。ReasoningBank不存储原始动作或结果，而是提炼推理模式——“策略”。这意味着来自某个网站任务的记忆可以帮助处理完全不同的网站，因为策略（“首先确认认证，然后检查速率限制，然后执行操作”）可以跨领域迁移。

除了框架本身，Google还发布了MaTTS（记忆感知测试时缩放）——一种通过两种方式在执行时利用记忆进行缩放的技术：并行探索（并行生成多条轨迹）和顺序细化（迭代改进单条轨迹）。这个补充尤其有趣，因为它表明记忆和计算缩放不是竞争机制而是协同机制。

下一步将是将ReasoningBank整合到Google的产品智能体中——可能是Gemini Deep Research智能体和Google的编码工具。详细方法论的论文预计在未来几周发布在arXiv等研究平台，预计还会有开源参考实现。

对于构建自己智能体的开发者来说，关键经验是简单存储”什么效果好”是不够的——真正的价值在于分析错误并提炼可迁移的推理模式，而不仅仅是动作轨迹。ReasoningBank是第一个系统性实现这一点的公开描述框架，但这种模式可能很快会在Claude、GPT和开源模型的生态系统中被复制。