UK AISI: Claude Mythos Preview postiže 73% na expert cyber zadacima — prvi model koji završava potpuni napad na mrežu
Zašto je bitno
Britanski institut za AI sigurnost objavio je evaluaciju Anthropicovog Claude Mythos Preview modela koja pokazuje značajan napredak u autonomnim cyber sposobnostima. Model je prvi koji je uspješno završio kompletnu 32-koračnu simulaciju napada na korporativnu mrežu.
Britanski AI Safety Institute (AISI) objavio je opsežnu evaluaciju cyber sposobnosti Anthropicovog najnovijeg modela Claude Mythos Preview. Rezultati pokazuju značajan skok u sposobnostima AI sustava za autonomno provođenje cyber napada u kontroliranim uvjetima.
Ključni rezultati
Na Capture-the-Flag (CTF) zadacima ekspertne razine, Mythos Preview postigao je 73% uspješnosti — na zadacima koje nijedan model prije travnja 2025. nije mogao riješiti. To predstavlja dramatičan napredak u odnosu na prethodne generacije modela.
Još impresivniji rezultat dolazi iz “The Last Ones” (TLO) cyber range-a — simulacije 32-koračnog napada na korporativnu mrežu koja obuhvaća sve faze od izviđanja do potpunog preuzimanja mreže. Procijenjeno je da bi ljudskom stručnjaku trebalo oko 20 sati za završetak. Mythos Preview uspješno je završio svih 32 koraka u 3 od 10 pokušaja, a u prosjeku je dosezao 22 koraka. Za usporedbu, Claude Opus 4.6 prosječno je dosezao 16 koraka.
Važne napomene
AISI naglašava ključna ograničenja evaluacije: testna okruženja nemaju obrambene mehanizme poput aktivnih branitelja, sustava za detekciju na endpointovima i timova za odgovor na incidente. To čini testne sustave “lakšim metama” od pravih hardened mreža.
Institut preporučuje organizacijama da se usredotoče na osnove kibernetičke sigurnosti — redovite zakrpe, robusne kontrole pristupa i primjenu sheme Cyber Essentials britanskog NCSC-a. Buduća testiranja usmjerit će se na obranjene okoline s aktivnim nadzorom.