Google ReasoningBank:智能体从经验中学习无需重新训练,WebArena成功率提升8.3%
为什么重要
Google推出ReasoningBank,一个让AI智能体从自身成功与失败中学习的记忆框架,无需重新训练语言模型。在WebArena基准测试中成功率提升8.3%,在SWE-Bench-Verified中提升4.6%,且每个任务减少约3个步骤。
Google ReasoningBank:智能体从经验中学习无需重新训练,WebArena成功率提升8.3%
Google Research推出了ReasoningBank——一个新型记忆框架,让AI智能体能够从自身过去的尝试(包括成功和失败)中学习,而无需重新训练(retrain)语言模型。结果是在两个具有挑战性的基准测试中成功率显著提升。
发生了什么?
ReasoningBank是一个运作如”持续闭环检索、提取和整合”的框架——这是Google研究博客作者的描述。在智能体采取行动之前,它从记忆库中检索相关记忆;任务执行完成后,LLM-as-a-judge评估结果,并将经验教训提炼为新的记忆条目。
每个记忆条目包含三个部分:标识策略的简洁标题、简短的描述性摘要,以及从过去经验中提炼出的推理步骤或操作洞见。这种结构使智能体能够快速搜索并将相关策略应用于新任务。
ReasoningBank的特点在于强调从失败中学习。竞争性方法如Synapse存储详尽的动作轨迹,而Agent Workflow Memory仅关注成功的尝试,ReasoningBank则”将错误提炼为预防性经验教训”,构建研究人员所称的”战略护栏”。
为什么这很重要?
在WebArena基准测试(网页导航标准)上,ReasoningBank比无记忆智能体成功率高8.3%。在SWE-Bench-Verified(解决真实GitHub仓库软件工程任务的挑战性基准测试)上,提升了4.6%,每个任务减少约3个步骤。
关键的实际意义在于这些收益不需要更改模型权重。这意味着开发团队可以将ReasoningBank叠加在现有LLM(Gemini、GPT、Claude)之上,无需昂贵的微调或失去模型供应商的保证。
对于企业应用,这为在部署过程中不断改进的智能体打开了大门——每次事故、每次失败的操作都成为学习材料,而不仅仅是日志中的统计数据。这是行业长期呼唤的东西的直接实现:能够积累机构知识的智能体。
研究团队由Google Cloud的Jun Yan和Chen-Yu Lee领导,另有15名研究人员,包括Siru Ouyang、Jiawei Han和Tomas Pfister。
ReasoningBank与之前的方法有何不同?
此前存在两种主要的智能体记忆方法。第一种Synapse存储详尽的动作轨迹——每次点击、每次输入、每个工具响应。问题是这种方法很快变得过于针对某个具体任务,难以迁移到新情况。
第二种方法Agent Workflow Memory仅关注成功的轨迹——智能体学习什么有效,但不知道为什么某些东西无效。ReasoningBank认为这是局限性的,因为智能体失败的频率高于成功,因此最大的改进空间恰恰在于从失败中学习。
第三个区别是抽象层次。ReasoningBank不存储原始动作或结果,而是提炼推理模式——“策略”。这意味着来自某个网站任务的记忆可以帮助处理完全不同的网站,因为策略(“首先确认认证,然后检查速率限制,然后执行操作”)可以跨领域迁移。
接下来?
除了框架本身,Google还发布了MaTTS(记忆感知测试时缩放)——一种通过两种方式在执行时利用记忆进行缩放的技术:并行探索(并行生成多条轨迹)和顺序细化(迭代改进单条轨迹)。这个补充尤其有趣,因为它表明记忆和计算缩放不是竞争机制而是协同机制。
下一步将是将ReasoningBank整合到Google的产品智能体中——可能是Gemini Deep Research智能体和Google的编码工具。详细方法论的论文预计在未来几周发布在arXiv等研究平台,预计还会有开源参考实现。
对于构建自己智能体的开发者来说,关键经验是简单存储”什么效果好”是不够的——真正的价值在于分析错误并提炼可迁移的推理模式,而不仅仅是动作轨迹。ReasoningBank是第一个系统性实现这一点的公开描述框架,但这种模式可能很快会在Claude、GPT和开源模型的生态系统中被复制。
本文由人工智能基于一手来源生成。