🟡 🛡️ Sicherheit Veröffentlicht: · 2 Min. Lesezeit ·

arXiv:2605.16090: CrossMPI — Angriff auf Vision-Language-Modelle ausschließlich durch Bildperturbation

arXiv:2605.16090 ↗

Editorial illustration: arXiv:2605.16090 stellt CrossMPI vor — einen Angriff auf Vision-Language-Modelle durch unsichtbare Pixeländerungen im Bild

arXiv:2605.16090 stellt CrossMPI vor — einen Angriff auf Vision-Language-Modelle, der bösartige Anweisungen ausschließlich durch unsichtbare Pixeländerungen im Bild einschleust, ohne jeglichen Text. Forscher entdeckten, dass die kritischen Schichten der multimodalen Integration in der Mitte des Modells liegen, nicht am Ende. Der Angriff erreicht eine ASR von 66,36 % und übertrifft alle bekannten Baselines um 40,91 PP.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Was ist CrossMPI und warum ist es gefährlich?

Forscher (Hao Yang, Zhuo Ma, Yang Liu und Mitarbeiter) veröffentlichten die Arbeit arXiv:2605.16090, die CrossMPI einführt — eine Methode zum Prompt-Injection-Angriff auf Large Vision-Language Models (LVLM), die ausschließlich durch Bildperturbation wirkt, ohne jeglichen Angreifertext.

Prompt Injection ist ein Angriff, bei dem verborgene Anweisungen in ein KI-Modell eingeschleust werden, um sein Verhalten zu ändern. CrossMPI überträgt dieses Prinzip in den multimodalen Raum: Die bösartige Anweisung wird in unsichtbaren Pixeländerungen — Adversarial Perturbation — kodiert, die das menschliche Auge nicht wahrnehmen kann.

Ein Vision-Language-Modell empfängt Bild und Text, führt sie intern in einem gemeinsamen Repräsentationsraum zusammen und generiert eine Antwort. Genau dieser Schritt — die multimodale Integration — erwies sich als verwundbarster Punkt.

Eine Entdeckung, die Annahmen verändert: Kritische Schichten liegen in der Mitte

Bisher wurde angenommen, dass die Ausgabeschichten der Transformer-Architektur am anfälligsten für Manipulationen sind. CrossMPI widerlegt dies empirisch.

Die optimalen Schichten für die Perturbation liegen in der Mitte des VLM, nicht am Ende. Abwehrmechanismen, die sich auf den Output konzentrieren, übersehen tiefer eingebettete Angriffe. Der Optimierungsraum in diesen Schichten beträgt ~10⁷ Parameter (vs. ~10⁵ im visuellen Embedding) — daher die dramatisch größere Reichweite.

Die Methode kombiniert eine Schichtauswahlstrategie (automatische Lokalisierung kritischer Schichten) und eine abnehmende Perturbationsbudget-Zuweisung (Pixel nahe semantisch wichtiger Regionen erhalten größere Perturbationen).

Experimentelle Ergebnisse: weit vor Baseline-Methoden

CrossMPI wurde an sechs VLMs getestet: MiniGPT4-Llama2, MiniGPT4-Vicuna, InstructBLIP, BLIP-2, BLIVA und Qwen2.5-VL, auf drei Datensätzen (MSCOCO, ImageNet, TextVQA).

Die durchschnittliche Angriffserfolgsrate (ASR) beträgt 66,36 %40,91 PP höher als der Durchschnitt von vier Baseline-Methoden (ARE-W: 8,24 %; CI: 54,57 %; ATPI: 4,41 %). Auf BLIP-2 mit MSCOCO erreicht die ASR 96,08 % bei minimaler visueller Verzerrung (LPIPS ~18–20 vs. 70–85 bei Baselines).

Warum sind die Sicherheitsimplikationen ernst?

Ein Angreifer, der ein Eingabebild kontrolliert — etwa ein Dokument, ein Foto oder Webinhalte — kann das Verhalten eines VLM ohne jeglichen Text verändern, den Filter erkennen könnten. Alle produktiven VLM-Implementierungen (Dokumentenanalyse, medizinische Diagnostik, sehfähige Chatbots) sind potenziell gefährdet.

Die Autoren folgern, dass Abwehrstrategien ihren Fokus von den Ausgabeschichten abwenden und sich der Modellmitte zuwenden müssen — dem eigentlichen Punkt der multimodalen Integration.

Häufig gestellte Fragen

Was ist ein Vision-Language-Modell (VLM)?
Ein Vision-Language-Modell (VLM) ist ein multimodales KI-System, das gleichzeitig Bilder und Text versteht — Beispiele sind BLIP-2, InstructBLIP und Qwen2.5-VL. Das Modell empfängt visuellen und textuellen Input, integriert sie intern in einen gemeinsamen Repräsentationsraum und generiert eine textuelle Antwort.
Wie funktioniert der CrossMPI-Angriff?
CrossMPI optimiert winzige, für das menschliche Auge unsichtbare Pixeländerungen (Adversarial Perturbation) direkt im Hidden-State-Raum des Modells. Statt das visuelle Embedding (10⁵ Parameter) anzugreifen, zielt es auf die mittleren Schichten der multimodalen Integration (10⁷ Parameter) ab und erzielt dadurch drastisch höhere Erfolgsraten beim Einschleusen bösartiger Anweisungen.
Warum ist die Entdeckung über die „Modellmitte" so wichtig?
Bisherige Annahmen in der Adversarial-Forschung basierten darauf, dass die letzten (Ausgabe-)Schichten der Transformer-Architektur am anfälligsten für Manipulationen sind. CrossMPI widerlegt dies empirisch: Die kritischen Schichten für die multimodale Integration liegen in der MITTE des VLM, was bedeutet, dass alle bisherigen, auf Ausgabeschichten fokussierten Abwehrmechanismen neu bewertet werden müssen.