CyberGym-E2E：脆弱性のための AI エージェントベンチマーク

Dawn Song（UC Berkeley 圏）のチームによる論文 arXiv:2606.04460 は2026年6月3日に公開され、脆弱性のライフサイクル全体を通じて AI エージェントを測定するスケーラブルな実世界ベンチマーク CyberGym-E2E を提示する。139のオープンソースプロジェクトから集めた920件の実在する脆弱性と、脆弱性の発見・概念実証（PoC）の生成・パッチの開発という3つの能力を対象とする。

論文 arXiv:2606.04460 は、脆弱性のライフサイクル全体にわたって AI エージェントを測定するスケーラブルな実世界ベンチマーク CyberGym-E2E を提示する。本論文は2026年6月3日（05:06 UTC）に、UC Berkeley 圏の Dawn Song を中心とするチームによって公開された。ベンチマークの目的は、AI エージェントが実際のソフトウェアにおけるセキュリティ上の欠陥をどれだけ自律的に発見し、実証し、修正できるかを現実的に評価することである。

CyberGym-E2E とは何か？

CyberGym-E2E はスケーラブルな実世界ベンチマーク、すなわち架空ではなく実在する例に基づいて AI エージェントの能力を比較するためのツールである。139のオープンソースプロジェクトから収集した920件の実在する脆弱性を含む。実在のプロジェクトに依拠することで、エージェントは本物のコードと本物のセキュリティ問題を扱わなければならなくなり、ベンチマークは実務に即したものとなる。

「E2E」という名称は「end-to-end」を意味し、ベンチマークが単一の孤立したステップだけでなく、発見から修正までの脆弱性解決の全行程をカバーすることを強調している。

ベンチマークはどの能力を測定するのか？

CyberGym-E2E は AI エージェントの3つの主要な能力を測定する。1つ目は脆弱性の発見、すなわちエージェントがコード内のセキュリティ上の欠陥をそもそも見つけ出せるかという能力である。2つ目は概念実証（PoC）の生成、すなわち発見された脆弱性が実際に悪用可能であることの証明である。

3つ目の能力はパッチの開発、すなわち脆弱性を取り除く修正の作成である。これら3つの段階すべてをカバーすることで、ベンチマークは問題の特定からその解決まで、脆弱性のライフサイクル全体を通じてエージェントを検証し、単一のタスクに焦点を絞ったテストよりも全体的な姿を描き出す。

テスト用のシナリオはどのように構築されるのか？

テストシナリオの作成のため、CyberGym-E2E はエージェント拡張（agent-enhancement）を備えた自動パイプラインを用いる。このパイプラインは、実在する脆弱性のデータをテストに適した現実的なシナリオへと変換する。自動化は重要である。なぜなら、それがスケーラビリティを可能にするからだ。新しいシナリオは、大規模な手作業なしに既存のデータから生成できる。

これにより CyberGym-E2E は、セキュリティベンチマークの主要な課題の一つ、すなわちその維持と拡張を解決する。脆弱性データベースが拡充されるにつれて、ベンチマークもそれとともに発展させることができる。

ベンチマークが提供しないものは何か？

重要なのは、論文の要旨が本ベンチマーク上での個々のモデルの具体的な成功率を記載していないという点である。本公開は CyberGym-E2E の方法論、範囲、構造に焦点を当てており、特定のシステムのランキングには言及していない。

それでも研究者やセキュリティ専門家にとって、本ベンチマークはサイバーセキュリティにおける AI エージェントの進歩を評価するための貴重な枠組みを提供する。より詳細な結果と分析は、すべての数値指標の一次情報源である arXiv 上の論文本体で入手できる。

よくある質問

CyberGym-E2E とは何ですか？

CyberGym-E2E は、脆弱性のライフサイクル全体を通じて AI エージェントを測定するスケーラブルな実世界ベンチマークです。139のオープンソースプロジェクトから集めた920件の実在する脆弱性を含んでおり、これによりエージェントのセキュリティ能力を合成的ではなく現実的な例で検証します。

ベンチマークが測定する3つの能力は何ですか？

本ベンチマークは、脆弱性の発見、概念実証（PoC、脆弱性が悪用可能であることの証明）の生成、パッチ（脆弱性を取り除く修正）の開発という3つの能力を測定します。これにより、問題の発見からその解決までの全行程をカバーします。

ベンチマークのシナリオはどのように作成されますか？

エージェント拡張（agent-enhancement）を備えた自動パイプラインが、実在する脆弱性のデータを現実的なシナリオへと変換します。このアプローチによりベンチマークのスケーラビリティが確保されます。手作業なしに、既存の脆弱性データから新しいシナリオを生成できるためです。

本論文は具体的なモデルの成功率を示していますか？

論文の要旨には個々のモデルの具体的な成功率は記載されていません。本公開の焦点はベンチマークの方法論と構造そのものにあり、詳細な結果は一次情報源である arXiv 上の論文本体に委ねられています。

arXiv:2606.04460：CyberGym-E2E が脆弱性のライフサイクル全体を通じて AI エージェントを測定

CyberGym-E2E とは何か？

ベンチマークはどの能力を測定するのか？

テスト用のシナリオはどのように構築されるのか？

ベンチマークが提供しないものは何か？

よくある質問

出典

関連ニュース