arXiv:2606.04460: CyberGym-E2E mjeri AI agente kroz cijeli životni ciklus ranjivosti
Rad arXiv:2606.04460 tima Dawn Song (UC Berkeley krug), objavljen 3. lipnja 2026., predstavlja CyberGym-E2E, skalabilan real-world benchmark koji mjeri AI agente kroz cijeli životni ciklus ranjivosti. Obuhvaća 920 stvarnih ranjivosti iz 139 open-source projekata i tri sposobnosti: otkrivanje ranjivosti, generiranje proof-of-concepta i razvoj patcha.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Rad arXiv:2606.04460 predstavlja CyberGym-E2E, skalabilan real-world benchmark za mjerenje AI agenata u cijelom životnom ciklusu ranjivosti. Rad je 3. lipnja 2026. (u 05:06 UTC) objavio tim oko Dawn Song iz kruga UC Berkeley. Cilj benchmarka je realistično procijeniti koliko su AI agenti sposobni samostalno pronaći, demonstrirati i ispraviti sigurnosne propuste u stvarnom softveru.
Što je CyberGym-E2E?
CyberGym-E2E je skalabilan real-world benchmark, dakle alat za usporedbu sposobnosti AI agenata koji se temelji na stvarnim, a ne izmišljenim primjerima. Sadrži 920 stvarnih ranjivosti prikupljenih iz 139 open-source projekata. Oslanjanje na stvarne projekte čini benchmark relevantnim za praksu, jer agenti moraju raditi s pravim kodom i pravim sigurnosnim problemima.
Naziv “E2E” označava “end-to-end”, što naglašava da benchmark pokriva cijeli put rješavanja ranjivosti, od pronalaska do popravka, a ne samo jedan izolirani korak.
Koje sposobnosti benchmark mjeri?
CyberGym-E2E mjeri tri ključne sposobnosti AI agenata. Prva je otkrivanje ranjivosti, odnosno sposobnost da agent uopće pronađe sigurnosni propust u kodu. Druga je generiranje proof-of-concepta (PoC), dokaza da se pronađena ranjivost može stvarno iskoristiti.
Treća sposobnost je razvoj patcha, odnosno izrada ispravka koji uklanja ranjivost. Pokrivanjem sve tri faze, benchmark testira agenta kroz cijeli životni ciklus ranjivosti, od identifikacije problema do njegova rješavanja, čime daje cjelovitiju sliku od testova usmjerenih na samo jedan zadatak.
Kako se grade scenariji za testiranje?
Za stvaranje testnih scenarija CyberGym-E2E koristi automatizirani pipeline s agent-enhancementom. Taj pipeline pretvara podatke o stvarnim ranjivostima u realistične scenarije pogodne za testiranje. Automatizacija je važna jer omogućuje skalabilnost: novi se scenariji mogu generirati iz postojećih podataka bez opsežnog ručnog rada.
Time CyberGym-E2E rješava jedan od glavnih izazova sigurnosnih benchmarka, a to je njihovo održavanje i širenje. Kako se baze ranjivosti dopunjuju, benchmark se može razvijati zajedno s njima.
Što benchmark ne donosi?
Važno je istaknuti da apstrakt rada ne navodi konkretne stope uspjeha pojedinih modela na ovom benchmarku. Objava se usredotočuje na metodologiju, opseg i strukturu CyberGym-E2E, a ne na rangiranje konkretnih sustava.
Za istraživače i sigurnosne stručnjake benchmark ipak predstavlja vrijedan okvir za procjenu napretka AI agenata u kibernetičkoj sigurnosti. Detaljniji rezultati i analiza dostupni su u samom radu na arXiv-u, koji ostaje primarni izvor za sve brojčane pokazatelje.
Česta pitanja
- Što je CyberGym-E2E?
- CyberGym-E2E je skalabilan real-world benchmark koji mjeri AI agente kroz cijeli životni ciklus (lifecycle) ranjivosti. Sadrži 920 stvarnih ranjivosti iz 139 open-source projekata, čime se sigurnosne sposobnosti agenata testiraju na realnim, a ne sintetičkim primjerima.
- Koje tri sposobnosti benchmark mjeri?
- Benchmark mjeri tri sposobnosti: otkrivanje ranjivosti, generiranje proof-of-concepta (PoC, dokaza da se ranjivost može iskoristiti) i razvoj patcha (ispravka koji uklanja ranjivost). Time pokriva cijeli put od pronalaska problema do njegova rješavanja.
- Kako se stvaraju scenariji za benchmark?
- Automatizirani pipeline s agent-enhancementom pretvara podatke o stvarnim ranjivostima u realistične scenarije. Taj pristup omogućuje skalabilnost benchmarka, jer se novi scenariji mogu generirati iz postojećih podataka o ranjivostima bez ručnog rada.
- Donosi li rad konkretne stope uspjeha modela?
- Apstrakt rada ne navodi konkretne stope uspjeha pojedinih modela. Fokus objave je na samoj metodologiji i strukturi benchmarka, dok detaljni rezultati ostaju na primarnom izvoru, samom radu na arXiv-u.
Povezane vijesti
Anthropic: Red Team mapira AI-omogućene kibernapade na MITRE ATT&CK okvir, u suradnji s Verizonom
AWS: Novi Bedrock InvokeGuardrailChecks API donosi sigurnosne provjere bez resursa za agentske aplikacije
arXiv:2606.07054: TRACE detektira prikrivenu sabotažu LLM agenata kroz nizove benignih akcija