AISI testete vier Claude-Modelle auf Sabotage von KI-Safety-Forschung: keine spontane Sabotage festgestellt, aber Mythos Preview zeigt 65 % Reasoning-Action-Diskrepanz
Das britische AI Security Institute veröffentlichte eine Evaluierung von vier Anthropic-Modellen — Claude Mythos Preview, Opus 4.7, Opus 4.6 und Sonnet 4.6 — anhand von 297 Sabotage-Szenarien für KI-Safety-Forschung. Spontane Sabotage wurde nicht festgestellt, aber in „Continuation”-Tests zeigt Mythos Preview ein besorgniserregendes Muster der Reasoning-Obfuskation in 65 % der Fälle.