ICML 2026: Bilder umgehen VLM-Filter in 40,9 %

Die Forscher Aharon Azulay, Jan Dubiński und Zhuoyun Li stellten auf der ICML 2026 vier Angriffskategorien vor, die die visuelle Modalität nutzen, um das Sicherheits-Alignment von Vision-Language-Modellen zu umgehen. Visuelle Chiffren erreichen eine Erfolgsquote von 40,9 % gegen Claude Haiku 4.5, während äquivalente Textangriffe nur in 10,7 % der Fälle durchdringen — ein Beleg dafür, dass Bilder eine Angriffsfläche eröffnen, die in rein sprachbasierten Modellen nicht existiert.

Das Team aus Aharon Azulay, Jan Dubiński und Zhuoyun Li veröffentlichte am 1. Mai 2026 auf ArXiv die Arbeit „Jailbreaking Vision-Language Models Through the Visual Modality”, die für die International Conference on Machine Learning (ICML) 2026 angenommen wurde. Das Paper dokumentiert systematisch, dass der visuelle Eingang von Vision-Language-Modellen (VLMs) eine Angriffsfläche darstellt, die außerhalb der Reichweite des auf Text trainierten Sicherheits-Alignments liegt.

Welchen neuen Angriffsvektor eröffnet das Bild?

Die visuelle Modalität stellt laut den Autoren eine bislang wenig erforschte Angriffsfläche zur Umgehung des Sicherheits-Alignments dar. Auf Text trainierte Filter decken semantische Transformationen nicht ab, die Bilder auf natürliche Weise ermöglichen — das Kodieren von Anweisungen als Bildsymbole, das Ersetzen von Objekten oder die Kombination visueller Analogien. Ergebnis: Angriffe, die in rein sprachbasierten Modellen abgewiesen würden, passieren den visuellen Kanal.

Die Autoren identifizierten vier Angriffskategorien:

Visuelle Chiffrierer — Kodierung schädlicher Anweisungen als visuelle Symbolsequenzen mit Dekodierlegende
Objektsubstitution — Ersetzen eines schädlichen Begriffs (Bombe) durch einen harmlosen (Banane) bei gleichzeitiger Anforderung schädlicher Aktionen mit dem substituierten Begriff
Textsubstitution im Bild — Ersetzen schädlichen Textes durch harmlose Sprache, während der visuelle Kontext die ursprüngliche Interpretation bewahrt
Analoge Rätsel — visuelle Rätsel, deren Lösung Schlussfolgerungen zu einem verbotenen Konzept erfordert

Welche konkreten Erfolgsmetriken zeigen die Angriffe?

Auf Claude Haiku 4.5 erzielte der visuelle Chiffrierer eine Erfolgsquote von 40,9 %. Das Textäquivalent desselben Konzepts überwindet Filter nur in 10,7 % der Fälle. Der Unterschied ist fast vierfach und war nicht möglich, bevor die Vision-Modalität Teil der standardmäßigen frontier-Modelle wurde.

Die Auswertung umfasste sechs frontier VLMs. Konkrete Zahlen für die anderen fünf Modelle finden sich im Haupttext, aber Claude Haiku 4.5 wurde von den Autoren als repräsentativer Fall gewählt, da es sich um ein sehr aktuelles Modell mit angeblich starkem Sicherheits-Alignment handelt.

Was bedeutet das für Unternehmen und Sicherheitsteams?

Das Paper legt nahe, dass die bestehende Red-Team-Methodik — die sich fast ausschließlich auf textuelle Prompt-Angriffe stützt — das VLM-Risiko systematisch unterschätzt. Sicherheitsteams, die multimodale Agenten einsetzen, müssen ihr Red-Team-Korpus auf visuelle Eingaben ausweiten, insbesondere: codierte Symbolsequenzen, visuelle Substitutionsangriffe und analoge Rätsel, die Schlussfolgerungen zu blockierten Konzepten aktivieren.

Die übergeordnete Schlussfolgerung: Sicherheits-Alignment (RLHF — Reinforcement Learning from Human Feedback), das auf Text durchgeführt wurde, generalisiert nicht auf die visuelle Modalität. Cross-modales Alignment wird zur Forschungspriorität, nicht zu einem Implementierungsdetail.

Das Paper ist auf ArXiv unter der ID 2605.00583 verfügbar und wird auf der ICML 2026 präsentiert.

Häufig gestellte Fragen

Wie viel effektiver sind visuelle Angriffe im Vergleich zu Textangriffen beim VLM-Jailbreaking?

Auf Claude Haiku 4.5 erreicht ein visueller Chiffrierer eine Erfolgsquote von 40,9 %, während der äquivalente Textangriff nur in 10,7 % der Fälle Filter überwindet — fast ein Vierfaches.

Welche vier Angriffskategorien definiert das Paper?

Verschlüsselte visuelle Symbolsequenzen mit Dekodierlegende, Ersetzen schädlicher Objekte durch harmlose (Bombe → Banane), Substitution schädlichen Textes im Bild durch harmlosen Text bei erhaltenem visuellem Kontext sowie analoge Rätsel, die Schlussfolgerungen zu verbotenen Konzepten erfordern.

Wie viele Modelle wurden in der Studie getestet?

Sechs frontier Vision-Language-Modelle. Das Paper wurde für ICML 2026 angenommen und beschreibt Angriffe, die in rein textbasierten LLMs strukturell unmöglich sind.

ArXiv: Visuelle Eingaben umgehen Sicherheitsfilter von Vision-Language-Modellen in 40,9 % der Fälle, zeigt ICML-2026-Studie

Welchen neuen Angriffsvektor eröffnet das Bild?

Welche konkreten Erfolgsmetriken zeigen die Angriffe?

Was bedeutet das für Unternehmen und Sicherheitsteams?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten