CyberGym-E2E：面向漏洞的 AI 智能体基准

Dawn Song（UC Berkeley 圈子）团队的论文 arXiv:2606.04460 于 2026 年 6 月 3 日发布，提出了 CyberGym-E2E——一个可扩展的真实世界基准，用于衡量 AI 智能体在整个漏洞生命周期中的表现。它涵盖来自 139 个开源项目的 920 个真实漏洞和三项能力：漏洞发现、概念验证生成以及补丁开发。

论文 arXiv:2606.04460 提出了 CyberGym-E2E，一个用于衡量 AI 智能体在整个漏洞生命周期中表现的可扩展真实世界基准。该论文由围绕 UC Berkeley 圈子的 Dawn Song 团队于 2026 年 6 月 3 日（05:06 UTC）发布。基准的目标是真实地评估 AI 智能体在多大程度上能够自主地在真实软件中发现、演示并修复安全缺陷。

CyberGym-E2E 是什么？

CyberGym-E2E 是一个可扩展的真实世界基准，也就是说，它是一个基于真实而非虚构样本来比较 AI 智能体能力的工具。它包含从 139 个开源项目中收集的 920 个真实漏洞。依托真实项目使该基准对实践具有相关性，因为智能体必须处理真实的代码和真实的安全问题。

名称中的 “E2E” 代表 “end-to-end”（端到端），强调该基准覆盖解决漏洞的完整路径——从发现到修复，而不仅仅是某个孤立的步骤。

基准衡量哪些能力？

CyberGym-E2E 衡量 AI 智能体的三项关键能力。第一项是漏洞发现，即智能体能否在代码中找到安全缺陷的能力。第二项是概念验证（PoC）生成，即证明所发现的漏洞确实可被利用的证据。

第三项能力是补丁开发，即编写消除漏洞的修复。通过覆盖全部三个阶段，该基准在整个漏洞生命周期中测试智能体——从识别问题到解决问题——从而提供比仅针对单一任务的测试更完整的图景。

测试场景是如何构建的？

为了创建测试场景，CyberGym-E2E 使用一条带有 agent-enhancement 的自动化流水线。该流水线把真实漏洞的数据转化为适合测试的逼真场景。自动化很重要，因为它实现了可扩展性：可以从现有数据中生成新场景，而无需大量人工操作。

由此，CyberGym-E2E 解决了安全基准的主要挑战之一，即它们的维护与扩展。随着漏洞数据库的不断补充，该基准可以与它们一同发展。

该基准没有提供什么？

需要强调的是，论文摘要没有列出各个模型在该基准上的具体成功率。该发布聚焦于 CyberGym-E2E 的方法论、范围和结构，而不是对具体系统进行排名。

不过，对于研究人员和安全专家而言，该基准仍是评估 AI 智能体在网络安全方面进展的宝贵框架。更详细的结果和分析可在 arXiv 上的论文本身获得，它仍是所有数值指标的主要来源。

常见问题

CyberGym-E2E 是什么？

CyberGym-E2E 是一个可扩展的真实世界基准，用于衡量 AI 智能体在整个漏洞生命周期（lifecycle）中的表现。它包含来自 139 个开源项目的 920 个真实漏洞，从而在真实而非合成的样本上测试智能体的安全能力。

该基准衡量哪三项能力？

该基准衡量三项能力：漏洞发现、概念验证生成（PoC，证明漏洞可被利用的证据）以及补丁开发（消除漏洞的修复）。由此覆盖了从发现问题到解决问题的完整路径。

基准的场景是如何生成的？

一条带有 agent-enhancement 的自动化流水线把真实漏洞的数据转化为逼真的场景。这种方法实现了基准的可扩展性，因为可以从现有的漏洞数据中生成新场景，无需人工操作。

论文是否给出了模型的具体成功率？

论文摘要没有列出各个模型的具体成功率。该发布的重点在于方法论本身和基准的结构，而详细结果留在主要来源，即 arXiv 上的论文本身。

arXiv:2606.04460：CyberGym-E2E 衡量 AI 智能体在整个漏洞生命周期中的表现

CyberGym-E2E 是什么？

基准衡量哪些能力？

测试场景是如何构建的？

该基准没有提供什么？

常见问题

来源

相关新闻