🤖 24 AI
🔴 🛡️ Sicherheit Donnerstag, 16. April 2026 · 3 Min. Lesezeit

ArXiv: MemJack — Mehragenten-Angriff überwindet Schutz von Vision-Language-Modellen mit bis zu 90 % Erfolgsrate

Warum es wichtig ist

MemJack ist ein neues Jailbreak-Framework für Vision-Language-Modelle (VLMs), das koordinierte Mehragenten-Zusammenarbeit statt klassischer Pixel-Perturbationen einsetzt. Bei Tests mit unveränderten COCO-Bildern erreicht es eine Erfolgsrate von 71,48 % auf Qwen3-VL-Plus und bis zu 90 % mit erweitertem Budget. Die Forscher kündigen die Veröffentlichung von über 113.000 interaktiven Angriffstrajektorien für die Verteidigungsforschung an.

Multimodale KI-Modelle, die Text- und Bildverständnis kombinieren — bekannt als Vision-Language-Modelle (VLMs) — sehen sich einer neuen Kategorie von Sicherheitsbedrohungen gegenüber. Ein Forschungsteam unter der Leitung von Jianhao Chen hat MemJack vorgestellt, ein Framework, das koordinierte Mehragenten-Zusammenarbeit nutzt, um die Sicherheitsmechanismen von VLMs zu umgehen, und dabei besorgniserregend hohe Erfolgsraten erzielt.

Wie umgeht MemJack die Sicherheitsschutzmaßnahmen?

Anders als bisherige Ansätze, die auf Pixel-Perturbationen setzen — subtile, für das menschliche Auge unsichtbare Bildveränderungen — verfolgt MemJack eine völlig andere Strategie. Das System bildet visuelle Elemente über ein semantisches Verständnis des Bildinhalts auf schädliche Ziele ab und generiert anschließend adversarielle Prompts mithilfe von Mehrperspektiven-Kamuflage-Techniken.

Die zentrale Innovation ist die Koordination mehrerer spezialisierter Agenten. Ein Agent analysiert den visuellen Inhalt, ein zweiter entwickelt Kamuflage-Strategien, und ein dritter wendet geometrisches Filtering an, um die Sicherheitsmechanismen des Modells zu umgehen. Das System verwendet vollständig unveränderte Bilder aus dem COCO-Datensatz — einem Standarddatensatz für Computer Vision — was es besonders gefährlich macht, da bestehende Abwehrmechanismen keine Manipulation auf Pixelebene erkennen können.

Warum ist persistenter Speicher eine Schlüsselkomponente?

MemJack führt eine persistente Speicherkomponente ein, die erfolgreiche Strategien über Interaktionen hinweg akkumuliert. Jeder erfolgreiche Angriff bereichert die Wissensbasis des Systems und macht künftige Angriffe auf neue Bilder effektiver. Dieser erfahrungsbasierte Lernmechanismus bedeutet, dass das System mit der Zeit immer gefährlicher wird.

Bei Tests am Modell Qwen3-VL-Plus erzielt MemJack eine Attack Success Rate (ASR) von 71,48 %. Mit erweitertem Rechenbudget — mehr Iterationen und Agenten — steigt diese Rate auf erschreckende 90 %. Das bedeutet, dass fast neun von zehn Bildern als Angriffsvektor gegen ein multimodales Modell dienen können.

Was bedeutet dies für die Multimodal-Modell-Branche?

Die Ergebnisse deuten auf ein fundamentales Problem in der Sicherheitsarchitektur von VLMs hin. Bisherige Abwehrmaßnahmen konzentrierten sich hauptsächlich auf die Erkennung veränderter Bilder oder die Filterung explizit schädlicher Text-Prompts. MemJack zeigt, dass ein Angreifer völlig legitime Bilder und ausgefeilte Prompts verwenden kann, um diese Schutzmaßnahmen zu umgehen.

Die Forscher kündigen die öffentliche Veröffentlichung des MemJack-Bench-Datensatzes mit mehr als 113.000 interaktiven multimodalen Angriffstrajektorien an. Das Ziel ist es, Verteidigungsforschern die Entwicklung robusterer Schutzmechanismen zu ermöglichen. Dies ist ein zweischneidiges Schwert — dieselben Daten, die der Verteidigung helfen, können auch Angreifern nützen —, aber das Forschungsteam ist überzeugt, dass Transparenz der Verteidigung letztlich zugute kommt.

Für Unternehmen, die VLMs in Produktionssystemen einsetzen — von der medizinischen Bildanalyse bis zum autonomen Fahren — ist MemJack eine Warnung: Sicherheitsevaluierungen müssen auch die Widerstandsfähigkeit gegenüber koordinierten Mehragenten-Angriffen umfassen, nicht nur isolierte Manipulationsversuche.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.