Jailbreak

Ein Jailbreak ist eine adversariale Eingabe, die die Sicherheitsvorkehrungen eines großen Sprachmodells umgeht und es zwingt, Inhalte zu erzeugen, deren Verweigerung es gelernt hat — Anleitungen für schädliche Handlungen, Hassrede oder die Offenlegung des System-Prompts.

Jailbreaks nutzen Schwächen im Alignment eines Modells durch Prompt Engineering aus: hypothetische Szenarien („Stell dir vor, du bist eine Figur, die …”), Rollenspiele, kodierte Anfragen, ungewöhnliche Formate oder lange, mehrstufige Gespräche, die die Schutzmechanismen allmählich aushöhlen. Anders als Prompt Injection, die die Unfähigkeit des Modells ausnutzt, Instruktionen von Daten zu trennen, zielt ein Jailbreak direkt auf die Sicherheitsgrenzen selbst.

Das Thema ist 2025–2026 hochaktuell. KI-Labore investieren stark in Red Teaming und Verteidigungsschichten. Anthropics Constitutional Classifiers senkten die Erfolgsquote von Jailbreaks von 86 % auf 4,4 % in automatisierten Tests, dennoch wurde nach über 300.000 Interaktionen in einer öffentlichen Challenge ein universeller Jailbreak gefunden. Das verdeutlicht eine Kernlektion der KI-Sicherheit: Verteidigungen verbessern sich stetig, doch keine ist vollständig.

Quellen

Siehe auch