ArXiv: Jailbreak ohne Training — Forscher entfernen KI-Sicherheitsleitplanken zur Inferenzzeit

Eine Sicherheitsschicht, die nicht so tief ist wie gedacht

Ein Forscherteam um Wenpeng Xing hat am 9. April eine Arbeit veröffentlicht, in der eine neue Art von Jailbreak-Angriff auf große Sprachmodelle beschrieben wird. Die Methode heißt Contextual Representation Ablation (CRA) und erfordert weder vorheriges Training noch Prompt-Optimierung oder eine Modifikation der Modellgewichte.

Wie CRA funktioniert

Ausgangsthese der Arbeit: „Refusal”-Verhalten in sicherheitsorientierten Modellen nimmt schmale, niedrigdimensionale Unterräume innerhalb der versteckten Zustände ein. Mit anderen Worten: Die Antwort „Ich kann Ihnen dabei nicht helfen” entsteht nicht aus einer komplexen verteilten Logik — sondern aus einem lokalisierten Signal, das sich mechanistisch identifizieren lässt.

Das Vorgehen ist folgendes:

Identifiziere Aktivierungsmuster, die Refusal-Antworten begleiten
Unterdrücke (abladiere) diese Aktivierungen während der Dekodierung dynamisch
Das Modell generiert Text weiter, als hätte die Sicherheitsschicht nie existiert

Was das für das Open-Source-Ökosystem bedeutet

Die empirische Evaluation zeigt, dass CRA bei mehreren sicherheitsausgerichteten Open-Source-Modellen „Baseline-Ansätze deutlich übertrifft”. Konkrete Modellnamen werden im Abstract nicht genannt, doch das Ergebnis hat eine klare Botschaft: Alignment-Trainings bauen keine tiefen Verteidigungen auf — sie errichten dünne Aktivierungsbarrieren, die sich ohne große Ressourcen umgehen lassen.

Implikationen

Diese Arbeit hat zwei Dimensionen. Für Sicherheitsforscher ist sie ein weiterer Beleg dafür, dass Post-Training-Alignment als aktueller Standard grundlegende Grenzen hat. Für die Open-Weight-Modell-Industrie (Llama, Mistral, Qwen, DeepSeek) bedeutet dies, dass jedes ausgelieferte „sichere” Modell auf der Client-Seite trivial modifiziert werden kann. Die Arbeit korrespondiert perfekt mit der früheren Anthropic-Erkenntnis, dass auch emotionale Repräsentationen das Verhalten kausal modifizieren — beide Studien zeigen, dass „Alignment” an der Oberfläche geschieht und nicht im Kern des Modells.

ArXiv: Jailbreak ohne Training — Forscher entfernen KI-Sicherheitsleitplanken zur Inferenzzeit

Eine Sicherheitsschicht, die nicht so tief ist wie gedacht

Wie CRA funktioniert

Was das für das Open-Source-Ökosystem bedeutet

Implikationen

Quellen

Verwandte Nachrichten