arXiv:2605.11882: FATE 框架通过在线自进化将智能体攻击成功率降低 33.5%
FATE 框架是 Bo Yin、Qi Li 与 Xinchao Wang 于 2026 年 5 月 12 日发表在 arXiv 上的一种全新 LLM 智能体安全对齐方法。与传统 RLHF 仅评估单次响应不同,FATE 将验证器评分的失败轨迹转化为在线修复监督信号与帕累托前沿策略优化。结果显示攻击成功率降低 33.5%,有害合规率降低 82.6%。
本文由人工智能基于一手来源生成。
Bo Yin、Qi Li 与 Xinchao Wang 于 2026 年 5 月 12 日在 arXiv 发表论文,针对现有工具调用 LLM 智能体安全对齐方法的核心局限——仅关注单次响应而非完整执行轨迹——提出了解决方案。所提出的 FATE 框架(失败轨迹对抗训练进化)能够捕捉响应级信号所遗漏的失败类型,并展现出显著的安全收益。
传统安全方法忽略了哪些问题?
工具调用智能体的失败并不局限于最终响应——失败贯穿整条轨迹:不安全的工具调用、指令注入、有害合规与过度拒绝。现有安全信号处于响应级或离线策略层面,在安全性与实用性之间造成两难。在响应层面阻断智能体的验证器,往往也会拦截合理的使用场景。
FATE 如何将失败转化为修复监督?
FATE 分三步运作。第一步,验证器对完整智能体轨迹评分,并按维度(安全性、实用性、过度拒绝控制、轨迹有效性)识别失败。第二步,在线自进化——由同一策略为失败提出修复候选,再由验证器重新评分。第三步,**帕累托前沿策略优化(PFPO)**将有监督预热与帕累托感知优化相结合:在策略空间中寻找能提升安全性而不损失实用性的方向。
基准测试的具体数据如何?
在 AgentDojo、AgentHarm 与 ATBench 上的测试结果如下:攻击成功率降低 33.5%、有害合规率降低 82.6%、外部轨迹安全诊断提升 6.5%。结果在不同模型和规模上均能保持,且实用性行为得到保留——帕累托前沿方法消除了传统安全与实用性之间的权衡。
本文的贡献在于将验证从响应层面迁移到轨迹层面,并将失败数据集本身用作训练信号——这表明智能体从自身错误中学习安全,胜过依赖外部标注。
常见问题
- FATE 方法有何创新之处?
- FATE 在整条智能体轨迹层面运作,而非仅评估单次响应——验证器对失败轨迹打分,FATE 利用这些记录进行在线修复:由同一策略提出修复候选,再由验证器重新评分。
- 基准测试的具体结果如何?
- 在 AgentDojo、AgentHarm 与 ATBench 上的测试显示:攻击成功率降低 33.5%,有害合规率降低 82.6%,外部轨迹安全诊断提升 6.5%,同时在各类任务和不同模型规模上保持了实用性。