ArXiv: Jailbreak ohne Training — Forscher entfernen KI-Sicherheitsleitplanken zur Inferenzzeit
Warum es wichtig ist
Eine neue Arbeit stellt Contextual Representation Ablation (CRA) vor — eine Methode, die Refusal-Aktivierungen in den verborgenen Schichten eines großen Sprachmodells während der Dekodierung identifiziert und unterdrückt. Sicherheitsmechanismen offener Modelle lassen sich ganz ohne Fine-Tuning umgehen.
Eine Sicherheitsschicht, die nicht so tief ist wie gedacht
Ein Forscherteam um Wenpeng Xing hat am 9. April eine Arbeit veröffentlicht, in der eine neue Art von Jailbreak-Angriff auf große Sprachmodelle beschrieben wird. Die Methode heißt Contextual Representation Ablation (CRA) und erfordert weder vorheriges Training noch Prompt-Optimierung oder eine Modifikation der Modellgewichte.
Wie CRA funktioniert
Ausgangsthese der Arbeit: „Refusal”-Verhalten in sicherheitsorientierten Modellen nimmt schmale, niedrigdimensionale Unterräume innerhalb der versteckten Zustände ein. Mit anderen Worten: Die Antwort „Ich kann Ihnen dabei nicht helfen” entsteht nicht aus einer komplexen verteilten Logik — sondern aus einem lokalisierten Signal, das sich mechanistisch identifizieren lässt.
Das Vorgehen ist folgendes:
- Identifiziere Aktivierungsmuster, die Refusal-Antworten begleiten
- Unterdrücke (abladiere) diese Aktivierungen während der Dekodierung dynamisch
- Das Modell generiert Text weiter, als hätte die Sicherheitsschicht nie existiert
Was das für das Open-Source-Ökosystem bedeutet
Die empirische Evaluation zeigt, dass CRA bei mehreren sicherheitsausgerichteten Open-Source-Modellen „Baseline-Ansätze deutlich übertrifft”. Konkrete Modellnamen werden im Abstract nicht genannt, doch das Ergebnis hat eine klare Botschaft: Alignment-Trainings bauen keine tiefen Verteidigungen auf — sie errichten dünne Aktivierungsbarrieren, die sich ohne große Ressourcen umgehen lassen.
Implikationen
Diese Arbeit hat zwei Dimensionen. Für Sicherheitsforscher ist sie ein weiterer Beleg dafür, dass Post-Training-Alignment als aktueller Standard grundlegende Grenzen hat. Für die Open-Weight-Modell-Industrie (Llama, Mistral, Qwen, DeepSeek) bedeutet dies, dass jedes ausgelieferte „sichere” Modell auf der Client-Seite trivial modifiziert werden kann. Die Arbeit korrespondiert perfekt mit der früheren Anthropic-Erkenntnis, dass auch emotionale Repräsentationen das Verhalten kausal modifizieren — beide Studien zeigen, dass „Alignment” an der Oberfläche geschieht und nicht im Kern des Modells.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
OpenAI veröffentlicht Dokument 'Our principles': fünf grundlegende Prinzipien auf dem Weg zur AGI
Anthropic aktualisiert Wahlsicherheitsmaßnahmen: Claude Opus 4.7 und Sonnet 4.6 erreichen 95–96 % bei politischer Neutralität
arXiv:2604.21854 'Bounding the Black Box': Ein statistischer Rahmen zur Zertifizierung hochriskanter KI-Systeme gemäß EU AI Act