CyberGym-E2E: KI-Agenten-Benchmark für Schwachstellen

Die Arbeit arXiv:2606.04460 des Teams um Dawn Song (Umfeld UC Berkeley), veröffentlicht am 3. Juni 2026, stellt CyberGym-E2E vor, einen skalierbaren Real-World-Benchmark, der KI-Agenten über den gesamten Schwachstellen-Lebenszyklus misst. Er umfasst 920 reale Schwachstellen aus 139 Open-Source-Projekten und drei Fähigkeiten: Schwachstellenerkennung, Proof-of-Concept-Generierung und Patch-Entwicklung.

Die Arbeit arXiv:2606.04460 stellt CyberGym-E2E vor, einen skalierbaren Real-World-Benchmark zur Messung von KI-Agenten über den gesamten Schwachstellen-Lebenszyklus. Die Arbeit wurde am 3. Juni 2026 (um 05:06 UTC) vom Team um Dawn Song aus dem Umfeld der UC Berkeley veröffentlicht. Ziel des Benchmarks ist es, realistisch zu bewerten, wie fähig KI-Agenten sind, Sicherheitslücken in realer Software eigenständig zu finden, zu demonstrieren und zu beheben.

Was ist CyberGym-E2E?

CyberGym-E2E ist ein skalierbarer Real-World-Benchmark, also ein Werkzeug zum Vergleich der Fähigkeiten von KI-Agenten, das auf realen statt erfundenen Beispielen beruht. Er enthält 920 reale Schwachstellen, die aus 139 Open-Source-Projekten gesammelt wurden. Das Vertrauen auf reale Projekte macht den Benchmark praxisrelevant, da die Agenten mit echtem Code und echten Sicherheitsproblemen arbeiten müssen.

Die Bezeichnung „E2E” steht für „end-to-end” und betont, dass der Benchmark den gesamten Weg der Schwachstellenbehebung abdeckt, von der Entdeckung bis zur Behebung, und nicht nur einen einzelnen isolierten Schritt.

Welche Fähigkeiten misst der Benchmark?

CyberGym-E2E misst drei zentrale Fähigkeiten von KI-Agenten. Die erste ist die Schwachstellenerkennung, also die Fähigkeit eines Agenten, eine Sicherheitslücke im Code überhaupt zu finden. Die zweite ist die Proof-of-Concept-Generierung (PoC), der Nachweis, dass die gefundene Schwachstelle tatsächlich ausgenutzt werden kann.

Die dritte Fähigkeit ist die Patch-Entwicklung, also das Erstellen eines Fixes, der die Schwachstelle beseitigt. Durch die Abdeckung aller drei Phasen testet der Benchmark einen Agenten über den gesamten Schwachstellen-Lebenszyklus, von der Problemidentifikation bis zur Behebung, und liefert damit ein vollständigeres Bild als auf eine einzelne Aufgabe ausgerichtete Tests.

Wie werden die Testszenarien aufgebaut?

Zur Erstellung der Testszenarien nutzt CyberGym-E2E eine automatisierte Pipeline mit Agent-Enhancement. Diese Pipeline wandelt Daten über reale Schwachstellen in zum Testen geeignete realistische Szenarien um. Die Automatisierung ist wichtig, da sie Skalierbarkeit ermöglicht: Neue Szenarien können aus vorhandenen Daten ohne umfangreiche manuelle Arbeit generiert werden.

Damit löst CyberGym-E2E eine der Hauptherausforderungen von Sicherheits-Benchmarks, nämlich ihre Pflege und Erweiterung. Während Schwachstellendatenbanken ergänzt werden, kann sich der Benchmark mit ihnen weiterentwickeln.

Was liefert der Benchmark nicht?

Es ist wichtig hervorzuheben, dass das Abstract der Arbeit keine konkreten Erfolgsquoten einzelner Modelle für diesen Benchmark nennt. Die Veröffentlichung konzentriert sich auf die Methodik, den Umfang und die Struktur von CyberGym-E2E und nicht auf die Bewertung konkreter Systeme.

Für Forscher und Sicherheitsexperten stellt der Benchmark dennoch einen wertvollen Rahmen zur Bewertung des Fortschritts von KI-Agenten in der Cybersicherheit dar. Detailliertere Ergebnisse und Analysen sind in der Arbeit selbst auf arXiv verfügbar, die die Primärquelle für alle numerischen Kennzahlen bleibt.

Häufig gestellte Fragen

Was ist CyberGym-E2E?

CyberGym-E2E ist ein skalierbarer Real-World-Benchmark, der KI-Agenten über den gesamten Lebenszyklus von Schwachstellen misst. Er enthält 920 reale Schwachstellen aus 139 Open-Source-Projekten, womit die Sicherheitsfähigkeiten der Agenten an realistischen statt an synthetischen Beispielen getestet werden.

Welche drei Fähigkeiten misst der Benchmark?

Der Benchmark misst drei Fähigkeiten: Schwachstellenerkennung, Proof-of-Concept-Generierung (PoC, Nachweis, dass eine Schwachstelle ausnutzbar ist) und Patch-Entwicklung (ein Fix, der die Schwachstelle beseitigt). Damit deckt er den gesamten Weg von der Problemfindung bis zur Behebung ab.

Wie werden die Benchmark-Szenarien erstellt?

Eine automatisierte Pipeline mit Agent-Enhancement wandelt Daten über reale Schwachstellen in realistische Szenarien um. Dieser Ansatz macht den Benchmark skalierbar, da neue Szenarien aus vorhandenen Schwachstellendaten ohne manuelle Arbeit generiert werden können.

Liefert die Arbeit konkrete Erfolgsquoten der Modelle?

Das Abstract der Arbeit nennt keine konkreten Erfolgsquoten einzelner Modelle. Der Fokus der Veröffentlichung liegt auf der Methodik und der Struktur des Benchmarks selbst, während detaillierte Ergebnisse in der Primärquelle, der Arbeit auf arXiv, verbleiben.

arXiv:2606.04460: CyberGym-E2E misst KI-Agenten über den gesamten Schwachstellen-Lebenszyklus

Was ist CyberGym-E2E?

Welche Fähigkeiten misst der Benchmark?

Wie werden die Testszenarien aufgebaut?

Was liefert der Benchmark nicht?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten