arXiv:2606.04460:CyberGym-E2E 衡量 AI 智能体在整个漏洞生命周期中的表现
Dawn Song(UC Berkeley 圈子)团队的论文 arXiv:2606.04460 于 2026 年 6 月 3 日发布,提出了 CyberGym-E2E——一个可扩展的真实世界基准,用于衡量 AI 智能体在整个漏洞生命周期中的表现。它涵盖来自 139 个开源项目的 920 个真实漏洞和三项能力:漏洞发现、概念验证生成以及补丁开发。
本文由人工智能基于一手来源生成。
论文 arXiv:2606.04460 提出了 CyberGym-E2E,一个用于衡量 AI 智能体在整个漏洞生命周期中表现的可扩展真实世界基准。该论文由围绕 UC Berkeley 圈子的 Dawn Song 团队于 2026 年 6 月 3 日(05:06 UTC)发布。基准的目标是真实地评估 AI 智能体在多大程度上能够自主地在真实软件中发现、演示并修复安全缺陷。
CyberGym-E2E 是什么?
CyberGym-E2E 是一个可扩展的真实世界基准,也就是说,它是一个基于真实而非虚构样本来比较 AI 智能体能力的工具。它包含从 139 个开源项目中收集的 920 个真实漏洞。依托真实项目使该基准对实践具有相关性,因为智能体必须处理真实的代码和真实的安全问题。
名称中的 “E2E” 代表 “end-to-end”(端到端),强调该基准覆盖解决漏洞的完整路径——从发现到修复,而不仅仅是某个孤立的步骤。
基准衡量哪些能力?
CyberGym-E2E 衡量 AI 智能体的三项关键能力。第一项是漏洞发现,即智能体能否在代码中找到安全缺陷的能力。第二项是概念验证(PoC)生成,即证明所发现的漏洞确实可被利用的证据。
第三项能力是补丁开发,即编写消除漏洞的修复。通过覆盖全部三个阶段,该基准在整个漏洞生命周期中测试智能体——从识别问题到解决问题——从而提供比仅针对单一任务的测试更完整的图景。
测试场景是如何构建的?
为了创建测试场景,CyberGym-E2E 使用一条带有 agent-enhancement 的自动化流水线。该流水线把真实漏洞的数据转化为适合测试的逼真场景。自动化很重要,因为它实现了可扩展性:可以从现有数据中生成新场景,而无需大量人工操作。
由此,CyberGym-E2E 解决了安全基准的主要挑战之一,即它们的维护与扩展。随着漏洞数据库的不断补充,该基准可以与它们一同发展。
该基准没有提供什么?
需要强调的是,论文摘要没有列出各个模型在该基准上的具体成功率。该发布聚焦于 CyberGym-E2E 的方法论、范围和结构,而不是对具体系统进行排名。
不过,对于研究人员和安全专家而言,该基准仍是评估 AI 智能体在网络安全方面进展的宝贵框架。更详细的结果和分析可在 arXiv 上的论文本身获得,它仍是所有数值指标的主要来源。
常见问题
- CyberGym-E2E 是什么?
- CyberGym-E2E 是一个可扩展的真实世界基准,用于衡量 AI 智能体在整个漏洞生命周期(lifecycle)中的表现。它包含来自 139 个开源项目的 920 个真实漏洞,从而在真实而非合成的样本上测试智能体的安全能力。
- 该基准衡量哪三项能力?
- 该基准衡量三项能力:漏洞发现、概念验证生成(PoC,证明漏洞可被利用的证据)以及补丁开发(消除漏洞的修复)。由此覆盖了从发现问题到解决问题的完整路径。
- 基准的场景是如何生成的?
- 一条带有 agent-enhancement 的自动化流水线把真实漏洞的数据转化为逼真的场景。这种方法实现了基准的可扩展性,因为可以从现有的漏洞数据中生成新场景,无需人工操作。
- 论文是否给出了模型的具体成功率?
- 论文摘要没有列出各个模型的具体成功率。该发布的重点在于方法论本身和基准的结构,而详细结果留在主要来源,即 arXiv 上的论文本身。