SEA:具备实时形式化安全保证的自我修改智能体
SEA(Self-Evolving Agents with Anytime-Valid Certificates)架构允许智能体在保留形式化学习理论保证的同时更新自身参数。五种验证机制和可审计证书实时批准或阻止每次自我修改,在SWE-bench Verified测试中,强基础模型上额外解决了4至5个实例。
本文由人工智能基于一手来源生成。
研究人员Biswa Sengupta于2026年7月1日发布了SEA(Self-Evolving Agents with Anytime-Valid Certificates)架构,解决了AI智能体开发中的一个根本性张力:如何在不牺牲形式化安全保证的前提下实现自我修改。
无监督自我修改的问题
能够更新自身权重或控制机制的智能体会打破经典学习理论的基本假设。当智能体自己生成用于自我学习的数据,并自己评估这些数据的质量时,标准统计框架便失去效力——没有独立的评估者来确认变更是否有益。
此前的方法要么通过禁止自我修改来解决这一问题(从而放弃了适应潜力),要么接受不受控制的自我改进(从而接受了不可预测的行为)。
SEA:具备形式化门控的架构
SEA在三个层面上化解了这一张力。
首先,限制「影响范围」:所有自我修改严格限制在围绕冻结基础模型的转向适配器上。基础模型的权重从不被改变——这意味着即使在完全错误的自我修改场景下,模型的基础能力也保持完整。
其次,五种验证机制生成信号,无需外部评估者即可批准或拒绝每次修改:
- 最优N选一 — 比较多个候选修改方案
- 微步骤搜索 — 对适配空间进行细粒度探索
- 自编写预言机 — 智能体为自身修改构造测试
- 搜索层控制 — 对搜索深度和方向的监控
- 自我修复 — 实时检测和纠正性能退化
什么是「任意时刻有效证书」?
第三个层面是统计性的:SEA使用任意时刻有效的统计门控,为每个提议的自我修改生成可审计证书。该证书确认修改不超过预设的误差预算——且在过程中的任意时刻均有效,而非仅在评估期结束时有效。
「任意时刻有效」意味着无论何时停止评估,结论都成立——无需预先确定步骤数量。这对于智能体实时运行并需要持续做出自我修改决策的部署场景至关重要。
SWE-bench Verified上的结果
SEA通过四个基础模型在SWE-bench Verified基准测试的52个实例子集上进行了测试。关键发现是:基础模型是主导因素——SEA放大了强模型的能力,但不能掩盖弱模型的不足。
在以无操作(no-op)作为对照的强基础模型上,SEA实现了额外解决4至5个实例的提升。具体结果:GLM从24提升至28个已解决实例,GPT从29提升至34。事件日志确认验证机制在测试过程中主动阻止了性能退化。
研究人员指出,由于任务成本,评估仅进行了一次迭代,运行间的方差验证有待未来研究。
SEA证明,自我改进与安全治理并不对立——形式化认证在操作智能体的约束边界内既可行又实际有用。
常见问题
- SEA与以往的自我改进智能体有何不同?
- SEA不允许自由的自我修改——每次变更都需通过任意时刻有效的统计门控,这些门控会生成可审计证书,并阻止超出预设误差预算的修改。
- 不良自我修改的「影响范围」如何受到限制?
- SEA将所有修改限制在围绕冻结基础模型的转向适配器上,因此即使发生完全错误的自我修改,也无法改变基础模型的核心权重。
- SEA在SWE-bench测试中提升了多少性能?
- 在针对四个基础模型测试的52个SWE-bench Verified子集实例中,SEA在强基础模型上额外解决了4至5个实例——GLM从24提升至28,GPT从29提升至34。