🟡 🤝 智能体 发布于: · 2 分钟阅读 ·

arXiv:2605.16233: FORGE——AI智能体无需微调即可构建共享记忆

arXiv:2605.16233 ↗

Editorial illustration: arXiv:2605.16233提出FORGE,LLM智能体通过种群经验广播构建共享记忆,无需修改模型权重

arXiv:2605.16233提出FORGE,一种LLM智能体通过种群广播共享经验来构建共享记忆的方法——无需任何模型权重更新。在CybORG CAGE-2网络防御任务上,性能比零基线提升1.7至7.7倍,较弱模型的提升尤为显著。

🤖

本文由人工智能基于一手来源生成。

来自卡尔顿大学和加拿大国防部的研究团队发表了论文FORGEFailure-Optimized Reflective Graduation and Evolution,失败优化反思毕业与进化)——一个LLM智能体在不改变任何模型参数的情况下共同构建和共享记忆的系统。在参考网络防御任务上,结果显示与零基线相比性能提升1.7至7.7倍

问题:以牺牲灵活性为代价的昂贵学习

改进LLM智能体的标准方法是微调(fine-tuning)——使用梯度下降算法在特定数据集上更新神经网络的数十亿权重。这一过程需要GPU计算时间、标注样本,并将模型固定在训练时的状态。每个新领域或任务都需要新一轮学习。

FORGE采取了不同的路径:与其修改模型本身,不如构建共享记忆——一个以自然语言形式注入智能体提示词的共同文本规则库和示范库。

FORGE如何绕过微调?

该系统通过两个耦合循环运作。内循环通过观察失败的回合生成可复用的「知识制品」——文本启发式规则(Rules)或成功动作的具体示范(Examples)。外循环则在发展阶段之间将最优智能体的记忆传播给整个种群,而已达到收敛的智能体则被「毕业」并冻结。

关键机制正是种群广播:知识不会被锁在单一智能体中,而是集体共享。研究人员在模拟环境CybORG CAGE-2上测试了Gemini-2.5-Flash-Lite、Grok-4-Fast、Llama-4-Maverick和Qwen3-235B——这是一个30步视野的随机POMDP网络防御任务,防御方需要应对B-line攻击者。

结果:较弱的模型收益最大

FORGE比孤立的Reflexion基线高出29–72%,将灾难性错误率降至约1%(相比零基线下的极度负奖励)。值得注意的是,Rules变体在达到相当结果的同时减少了约40%的token消耗,而Examples变体在四个测试模型中的三个上表现最优。

尤为相关的发现是,较弱的基础模型收益不成比例地更大——FORGE实际上通过种群集体构建的经验弥补了较小模型有限的能力。这为在部署更强大模型在经济上或延迟上不可行的场景下打开了大门——此时领域知识可以封装在共享记忆中。

该论文表明,对于网络安全防御等专业领域,种群记忆可能是代价高昂的微调的有效替代方案——尤其是当领域规则快速变化时。

常见问题

FORGE是什么?
FORGE(失败优化反思毕业与进化)是一种LLM智能体记忆发展方法。它不修改模型参数,而是构建文本记忆——规则和示例——注入智能体的提示词中,并在整个种群中共享。
为什么智能体不需要微调?
FORGE采用种群经验共享机制:当群体中的一个智能体学到有用的启发式规则或示范时,这些知识通过共享记忆机制在发展阶段之间传播给所有其他智能体。没有梯度更新——知识以自然语言而非网络权重的形式保留。
FORGE在哪些模型上进行了测试?
研究人员测试了Gemini-2.5-Flash-Lite、Grok-4-Fast、Llama-4-Maverick和Qwen3-235B。较弱的模型显示出相对更大的提升,表明FORGE可以弥补基础模型能力的不足。