UK AISI: Claude Mythos Preview postiže 73% na expert cyber zadacima — prvi model koji završava potpuni napad na mrežu

Britanski AI Safety Institute (AISI) objavio je opsežnu evaluaciju cyber sposobnosti Anthropicovog najnovijeg modela Claude Mythos Preview. Rezultati pokazuju značajan skok u sposobnostima AI sustava za autonomno provođenje cyber napada u kontroliranim uvjetima.

Ključni rezultati

Na Capture-the-Flag (CTF) zadacima ekspertne razine, Mythos Preview postigao je 73% uspješnosti — na zadacima koje nijedan model prije travnja 2025. nije mogao riješiti. To predstavlja dramatičan napredak u odnosu na prethodne generacije modela.

Još impresivniji rezultat dolazi iz “The Last Ones” (TLO) cyber range-a — simulacije 32-koračnog napada na korporativnu mrežu koja obuhvaća sve faze od izviđanja do potpunog preuzimanja mreže. Procijenjeno je da bi ljudskom stručnjaku trebalo oko 20 sati za završetak. Mythos Preview uspješno je završio svih 32 koraka u 3 od 10 pokušaja, a u prosjeku je dosezao 22 koraka. Za usporedbu, Claude Opus 4.6 prosječno je dosezao 16 koraka.

Važne napomene

AISI naglašava ključna ograničenja evaluacije: testna okruženja nemaju obrambene mehanizme poput aktivnih branitelja, sustava za detekciju na endpointovima i timova za odgovor na incidente. To čini testne sustave “lakšim metama” od pravih hardened mreža.

Institut preporučuje organizacijama da se usredotoče na osnove kibernetičke sigurnosti — redovite zakrpe, robusne kontrole pristupa i primjenu sheme Cyber Essentials britanskog NCSC-a. Buduća testiranja usmjerit će se na obranjene okoline s aktivnim nadzorom.

UK AISI: Claude Mythos Preview postiže 73% na expert cyber zadacima — prvi model koji završava potpuni napad na mrežu

Ključni rezultati

Važne napomene

Izvori

Povezane vijesti