ArXiv: Jailbreak ohne Training — Forscher entfernen KI-Sicherheitsleitplanken zur Inferenzzeit
Warum es wichtig ist
Eine neue Arbeit stellt Contextual Representation Ablation (CRA) vor — eine Methode, die Refusal-Aktivierungen in den verborgenen Schichten eines großen Sprachmodells während der Dekodierung identifiziert und unterdrückt. Sicherheitsmechanismen offener Modelle lassen sich ganz ohne Fine-Tuning umgehen.
Eine Sicherheitsschicht, die nicht so tief ist wie gedacht
Ein Forscherteam um Wenpeng Xing hat am 9. April eine Arbeit veröffentlicht, in der eine neue Art von Jailbreak-Angriff auf große Sprachmodelle beschrieben wird. Die Methode heißt Contextual Representation Ablation (CRA) und erfordert weder vorheriges Training noch Prompt-Optimierung oder eine Modifikation der Modellgewichte.
Wie CRA funktioniert
Ausgangsthese der Arbeit: „Refusal”-Verhalten in sicherheitsorientierten Modellen nimmt schmale, niedrigdimensionale Unterräume innerhalb der versteckten Zustände ein. Mit anderen Worten: Die Antwort „Ich kann Ihnen dabei nicht helfen” entsteht nicht aus einer komplexen verteilten Logik — sondern aus einem lokalisierten Signal, das sich mechanistisch identifizieren lässt.
Das Vorgehen ist folgendes:
- Identifiziere Aktivierungsmuster, die Refusal-Antworten begleiten
- Unterdrücke (abladiere) diese Aktivierungen während der Dekodierung dynamisch
- Das Modell generiert Text weiter, als hätte die Sicherheitsschicht nie existiert
Was das für das Open-Source-Ökosystem bedeutet
Die empirische Evaluation zeigt, dass CRA bei mehreren sicherheitsausgerichteten Open-Source-Modellen „Baseline-Ansätze deutlich übertrifft”. Konkrete Modellnamen werden im Abstract nicht genannt, doch das Ergebnis hat eine klare Botschaft: Alignment-Trainings bauen keine tiefen Verteidigungen auf — sie errichten dünne Aktivierungsbarrieren, die sich ohne große Ressourcen umgehen lassen.
Implikationen
Diese Arbeit hat zwei Dimensionen. Für Sicherheitsforscher ist sie ein weiterer Beleg dafür, dass Post-Training-Alignment als aktueller Standard grundlegende Grenzen hat. Für die Open-Weight-Modell-Industrie (Llama, Mistral, Qwen, DeepSeek) bedeutet dies, dass jedes ausgelieferte „sichere” Modell auf der Client-Seite trivial modifiziert werden kann. Die Arbeit korrespondiert perfekt mit der früheren Anthropic-Erkenntnis, dass auch emotionale Repräsentationen das Verhalten kausal modifizieren — beide Studien zeigen, dass „Alignment” an der Oberfläche geschieht und nicht im Kern des Modells.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
AISI testete vier Claude-Modelle auf Sabotage von KI-Safety-Forschung: keine spontane Sabotage festgestellt, aber Mythos Preview zeigt 65 % Reasoning-Action-Diskrepanz
AISI 'Ask Don't Tell': Umformulierung als Frage reduziert Sycophancy bei LLMs um 24 Prozentpunkte
ESRRSim-Framework misst strategisches Reasoning in 11 Reasoning-Modellen: Erkennungsraten variieren von 14,45 % bis 72,72 % und decken generationsübergreifende Evaluation Awareness auf