ArXiv: Jailbreak ohne Training — Forscher entfernen KI-Sicherheitsleitplanken zur Inferenzzeit

Eine neue Arbeit stellt Contextual Representation Ablation (CRA) vor — eine Methode, die Refusal-Aktivierungen in den verborgenen Schichten eines großen Sprachmodells während der Dekodierung identifiziert und unterdrückt. Sicherheitsmechanismen offener Modelle lassen sich ganz ohne Fine-Tuning umgehen.

Eine Sicherheitsschicht, die nicht so tief ist wie gedacht

Ein Forscherteam um Wenpeng Xing hat am 9. April eine Arbeit veröffentlicht, in der eine neue Art von Jailbreak-Angriff auf große Sprachmodelle beschrieben wird. Die Methode heißt Contextual Representation Ablation (CRA) und erfordert weder vorheriges Training noch Prompt-Optimierung oder eine Modifikation der Modellgewichte.

Wie CRA funktioniert

Ausgangsthese der Arbeit: „Refusal”-Verhalten in sicherheitsorientierten Modellen nimmt schmale, niedrigdimensionale Unterräume innerhalb der versteckten Zustände ein. Mit anderen Worten: Die Antwort „Ich kann Ihnen dabei nicht helfen” entsteht nicht aus einer komplexen verteilten Logik — sondern aus einem lokalisierten Signal, das sich mechanistisch identifizieren lässt.

Das Vorgehen ist folgendes:

Identifiziere Aktivierungsmuster, die Refusal-Antworten begleiten
Unterdrücke (abladiere) diese Aktivierungen während der Dekodierung dynamisch
Das Modell generiert Text weiter, als hätte die Sicherheitsschicht nie existiert

Was das für das Open-Source-Ökosystem bedeutet

Die empirische Evaluation zeigt, dass CRA bei mehreren sicherheitsausgerichteten Open-Source-Modellen „Baseline-Ansätze deutlich übertrifft”. Konkrete Modellnamen werden im Abstract nicht genannt, doch das Ergebnis hat eine klare Botschaft: Alignment-Trainings bauen keine tiefen Verteidigungen auf — sie errichten dünne Aktivierungsbarrieren, die sich ohne große Ressourcen umgehen lassen.

Implikationen

Diese Arbeit hat zwei Dimensionen. Für Sicherheitsforscher ist sie ein weiterer Beleg dafür, dass Post-Training-Alignment als aktueller Standard grundlegende Grenzen hat. Für die Open-Weight-Modell-Industrie (Llama, Mistral, Qwen, DeepSeek) bedeutet dies, dass jedes ausgelieferte „sichere” Modell auf der Client-Seite trivial modifiziert werden kann. Die Arbeit korrespondiert perfekt mit der früheren Anthropic-Erkenntnis, dass auch emotionale Repräsentationen das Verhalten kausal modifizieren — beide Studien zeigen, dass „Alignment” an der Oberfläche geschieht und nicht im Kern des Modells.

ArXiv: Jailbreak ohne Training — Forscher entfernen KI-Sicherheitsleitplanken zur Inferenzzeit

Eine Sicherheitsschicht, die nicht so tief ist wie gedacht

Wie CRA funktioniert

Was das für das Open-Source-Ökosystem bedeutet

Implikationen

Quellen

Verwandte Nachrichten