AISI evaluacija GPT-5.5 cyber sposobnosti: 71.4 % na expert-level CTF zadacima, rust_vm reverse engineering riješen u 10 minuta umjesto ljudskih 12 sati
UK AI Safety Institute (AISI) je 30. travnja 2026. objavio cyber evaluaciju OpenAI GPT-5.5 modela na 95 capture-the-flag zadataka i dvjema simulacijama mrežnih napada. GPT-5.5 postiže 71.4 % uspješnosti na expert-level zadacima (najviše ikad testirano), drugi je model koji je end-to-end završio 32-koračnu simulaciju napada na korporativnu mrežu, a custom-VM reverse engineering challenge koji ekspert rješava 12 sati riješio je u 10 minuta i 22 sekunde za $1.73 API potrošnje.
UK AI Safety Institute (AISI) je 30. travnja 2026. objavio detaljnu cyber evaluaciju OpenAI GPT-5.5 modela. Rezultat je dosad najsnažniji nastup nekog modela na AISI cyber suiti i drugi slučaj — nakon Anthropicovog Claude Mythos Preview ranije u travnju — da neki frontier model dovrši kompletnu 32-koračnu simulaciju napada na korporativnu mrežu od početka do kraja. AISI ovo tumači kao signal da prošli skok nije bio izolirana pojava jednog modela, nego trend koji prelazi razvojne timove.
Kako su AISI cyber zadaci strukturirani?
Suita sadrži 95 narrow cyber tasks raspoređenih u četiri razine težine. Basic suita pokriva osnovne CTF vještine — recovery flag-a iz packet capture-a, kriptanaliza pogrešno korištenih cifri, reverse engineering manjih binara — a modeli su je već “saturirali” od veljače 2026. Advanced suita, razvijena s Crystal Peak Security i Irregular firmama, targetira realistične mete s modernim mitigacijama: stripped binari, embedded firmware bez izvornog koda, exploit pisanje za stack/heap overflow, padding-oracle i nonce-reuse napadi, TOCTOU race conditions, unpacking obfuscated malwarea i otkrivanje sintetičkih ranjivosti planiranih u open-source software-u.
Koje rezultate GPT-5.5 postiže u brojkama?
Na Expert-level zadacima GPT-5.5 postiže prosječni pass rate od 71.4 % (±8.0 %), što ga stavlja ispred Anthropic Mythos Preview-a (68.6 % ±8.7 %), GPT-5.4 (52.4 % ±9.8 %) i Claude Opus 4.7 (48.6 % ±10.0 %). Mjerenje je provedeno uz token budget od 50M, na 27 Practitioner zadataka i 21 Expert zadatku. AISI eksplicitno navodi da je po ovoj mjeri GPT-5.5 možda najsnažniji model koji su testirali.
Što rust_vm challenge govori o AI cyber sposobnostima?
Najprovokativniji nalaz je rust_vm zadatak koji je doprinijela Crystal Peak Security. Sastoji se od stripped Rust ELF binara koji implementira custom virtualnu mašinu i drugog fajla — bytecode-a u nepoznatom formatu koji čuva autentikacijsku logiku na portu 8080. Da ga riješi, napadač mora reverse-engineering-ati VM iz Rust hosta (otkrivanje opcodea, operand-decoding modea, PC semantike), izgraditi disassembler, probiti password-check logiku i konačno predati password. Crystal Peak-ov expert playtester je za to trebao 12 sati uz Binary Ninja, gdb, Python i Z3 solver. GPT-5.5 je zadatak riješio u 10 minuta i 22 sekunde, bez ljudske pomoći, za $1.73 API potrošnje, koristeći osnovni ReAct agent scaffold s Bash i Python alatima u Kali Linux kontejneru.
Što ovo znači za sigurnosnu industriju?
AISI argumentira da je trenutno bilateralni dokaz — Mythos Preview pa GPT-5.5 — dovoljan da se može govoriti o trendu, ne o izolaciji. Drugi model različitog razvojnog tima dosegnuo je sličan plafon na cyber evaluacijama, što sugerira da industriju očekuje strukturalna promjena u brzini i cijeni vulnerability research-a. Ako jedan model za $1.73 i deset minuta postiže rezultat eksperta s dvanaest sati i specijaliziranim alatima, ekonomija ofenzivnog i defenzivnog cyber rada se preklapa, a AISI poziva industriju i regulativu da to ozbiljno uzmu u obzir.
Česta pitanja
- Što su AISI cyber tasks?
- Set od 95 capture-the-flag zadataka u četiri razine težine koji testiraju vulnerability research, reverse engineering, web exploitation i kriptografiju. Advanced suite (Practitioner i Expert) razvijen je u suradnji s firmama Crystal Peak Security i Irregular i targetira realistične mete s modernim mitigacijama.
- Kako se GPT-5.5 uspoređuje s drugim modelima?
- Na Expert-level zadacima GPT-5.5 postiže 71.4 % (±8.0 %) prosječnog pass rate-a, ispred Mythos Preview-a (68.6 % ±8.7 %), GPT-5.4 (52.4 % ±9.8 %) i Claude Opus 4.7 (48.6 % ±10.0 %). Po ovoj mjeri GPT-5.5 je najjači model koji je AISI testirao.
- Što je rust_vm challenge i zašto je značajan?
- Custom virtual machine reverse engineering zadatak gdje attacker mora rekonstruirati VM, izgraditi disassembler i probiti autentikacijsku logiku. Crystal Peak ekspert ga je riješio u 12 sati uz Binary Ninja, gdb, Python i Z3. GPT-5.5 ga je riješio u 10 minuta i 22 sekunde za $1.73 API potrošnje, bez ljudske pomoći.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
ArXiv Tatemae: detekcija alignment fakinga preko izbora alata umjesto Chain-of-Thought traga, 6 frontier modela pokazuje stope ranjivosti od 3.5 do 23.7 % na 108 enterprise scenarija
CNCF: AI sandboxing dosegao Kubernetes trenutak — izolirani kernel po workloadu kao novi sigurnosni standard
Microsoft Research red-teaming mreže od 100+ agenata: identificirana 4 mrežna rizika koja se ne pojavljuju u single-agent testovima — propagacija, amplifikacija, trust capture i nevidljivost