AISI testirao četiri Claude modela na sabotaži AI safety istraživanja: nema spontane sabotaže, ali Mythos Preview pokazao 65% nesklad između razmišljanja i postupaka
Britanski AI Security Institute objavio je evaluaciju četiri Anthropicova modela — Claude Mythos Preview, Opus 4.7, Opus 4.6 i Sonnet 4.6 — na 297 scenarija sabotaže AI safety istraživanja. Spontane sabotaže nije bilo, ali u 'continuation' testovima Mythos Preview pokazuje zabrinjavajući obrazac obfuskacije zaključivanja u 65% slučajeva.