MARS: Textuelle Ablehnungsrichtungen schützen multimodale KI-Modelle ohne zusätzliches Training
Forscher der Universität Trient schlagen MARS vor — einen Ansatz zur multimodalen Sicherheit, der Ablehnungsrichtungen aus einem textuellen LLM übernimmt und auf Bild- und Videoeingaben anwendet, ohne jegliches zusätzliches Training. Getestet an fünf aktuellen multimodalen Modellen mit konsistenten Sicherheitsverbesserungen bei erhaltener Nützlichkeit.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Multimodale große Sprachmodelle — die gleichzeitig Text, Bilder und Video verarbeiten — stellen Sicherheitsforscher vor eine neue Herausforderung: Sicherheitsmechanismen, die auf Textdaten trainiert wurden, übertragen sich nicht automatisch auf visuelle Modalitäten. Ein Angreifer, der über eine Textanfrage keine schädliche Antwort erzielen kann, kann dies manchmal mit einem sorgfältig konstruierten Bild oder einer Videosequenz erreichen.
Ein Forschungsteam vom Institut für Informatik der Universität Trient — D’Incà, Mancini und Sebe — schlägt einen neuen Ansatz vor, der diese Lücke ohne einen einzigen zusätzlichen Trainingsschritt schließt.
Was ist MARS?
MARS (Modality-Agnostic Refusal Steering) geht von einer einfachen, aber kraftvollen Annahme aus: Der Mechanismus, mit dem ein LLM eine schädliche Textanfrage ablehnt, ist nicht ausschließlich in der Eingabeschicht angesiedelt — sondern tiefer im Aktivierungsraum des Modells. Diese Ablehnungsrichtungen sind geometrische Strukturen, die identifiziert und, wie MARS zeigt, über Modalitäten hinweg generalisiert werden können.
Konkret: Ablehnungsrichtungen, die aus dem rein textuellen Teil des Modells extrahiert wurden, sind auf Aktivierungen anwendbar, die durch die Verarbeitung von Bildern oder Videos entstanden sind. Das multimodale Modell enthält Wissen darüber, was Ablehnung bedeutet — MARS aktiviert diese Struktur auch in Modalitäten, in denen sie normalerweise nicht als aktiver Sicherheitsmechanismus vorhanden ist.
Drei Mechanismen, die MARS robust machen
Der Ansatz stützt sich auf drei Komponenten, die bei der Generierung des ersten Antwort-Tokens zusammenarbeiten — der Phase, in der die Ablehnungsentscheidung getroffen wird:
Re-Zentrierung der Aktivierungen ist eine Verschiebung des Aktivierungsraums hin zur Region, in der das Modell schädliche Anfragen natürlich ablehnt. Aktivierungen, die durch visuelle Eingaben entstehen, werden in dieselbe geometrische Zone gelenkt, in der das Textmodell schädliche Inhalte erkennt.
Adaptives Interventions-Scaling passt die Stärke der Korrektur dynamisch daran an, wie weit die Eingabe von sicheren Beispielen entfernt ist. Dadurch wird der Kollateraleffekt auf harmlose Anfragen reduziert — die Nützlichkeit des Modells wird nicht durch pauschale Verstärkung aller Ablehnungen beeinträchtigt.
Optimale Schichtauswahl identifiziert, welche Transformer-Schicht bei der Generierung des ersten Tokens den größten Einfluss auf die Ablehnungsentscheidung hat, und wendet die Intervention präzise dort an. Dies ist effizienter als die Anwendung in allen Schichten und reduziert unerwünschte Interaktionen mit dem Rest des Netzwerks.
Der entscheidende Vorteil: keine multimodalen Sicherheitsdaten erforderlich
Klassische Ansätze zur multimodalen Sicherheit erfordern Datensätze, die schädliche visuelle Eingaben mit angemessenen Antworten koppeln — teuer und schwer zu sammeln, und Fine-Tuning-Verfahren können die Nützlichkeit des Modells bei Standardaufgaben beeinträchtigen.
MARS benötigt solche Daten nicht. Es verwendet ausschließlich die textuelle Ablehnungsstruktur, die bereits im Modell vorhanden ist. Das macht es auf jedes multimodale Modell anwendbar, das einen gemeinsamen LLM-Backbone teilt — ohne erneutes Training, ohne GPU-Cluster, ohne spezialisierte Sicherheitsdatensätze.
Tests an fünf aktuellen multimodalen Modellen
Die Forscher führten eine Evaluation an fünf aktuellen SOTA-multimodalen Modellen durch, die Bilder und Video verarbeiten. Die Ergebnisse zeigen konsistente Sicherheitsgewinne: Modelle mit aktiviertem MARS generieren seltener schädliche Inhalte bei visuellen Angriffen, die sonst Textschutzmaßnahmen umgehen würden.
Die kritische Bedingung in Produktionsumgebungen — dass eine Sicherheitsintervention die Nützlichkeit nicht beeinträchtigt — ist erfüllt: Die Nützlichkeit bei harmlosen Aufgaben bleibt erhalten. Eine Sicherheitsintervention, die die Antwortqualität negativ beeinflusst, wäre in der Praxis nicht akzeptabel.
Die Autoren betonen, dass MARS kein Ersatz für robustes Sicherheitstraining ist — es ist eine leichte Schicht, die ein bereits deploytes Modell schnell und ohne nennenswerte Kosten verbessern kann. Eine Kombination mit dem ursprünglichen Sicherheitstraining sollte theoretisch noch bessere Ergebnisse liefern.
Breiterer Kontext: warum modale Sicherheit dringend ist
Visuelle Angriffe auf multimodale Modelle sind eine wachsende Bedrohungskategorie: adversarielle Bilder, in Fotos eingebetteter Text, Videosequenzen, die Sicherheitsfilter verwirren sollen. Da multimodale Modelle in Produktionssystemen eingesetzt werden — von Chatbots mit Bild-Upload-Funktion bis hin zu automatisierten Systemen zur Überprüfung visueller Inhalte — werden modalitätsspezifische Schwachstellen zunehmend relevanter.
Der MARS-Ansatz ohne Training ist besonders wertvoll in Szenarien, in denen eine Organisation keine Ressourcen für Fine-Tuning hat oder das Modell nicht für Training verfügbar ist (API-only-Deployment). Die Leichtigkeit und Anwendbarkeit auf ein fertiges Modell unterscheidet ihn von den meisten bisherigen Ansätzen, die vollen Zugriff auf die Parameter voraussetzen.
Die Arbeit öffnet auch eine breitere Forschungsfrage: Wie modularer Natur ist das Sicherheitswissen in einem LLM? Wenn Ablehnungsrichtungen erfolgreich zwischen Modalitäten übertragen werden können, ist es möglich, dass dasselbe Prinzip auch zwischen Aufgaben, Domänen oder verwandten Modellarchitekturen gilt.
Häufig gestellte Fragen
- Was sind Ablehnungsrichtungen und warum sind sie für multimodale Sicherheit wichtig?
- Ablehnungsrichtungen sind geometrische Vektoren im Aktivierungsraum eines LLM, die den Mechanismus repräsentieren, mit dem das Modell schädliche Anfragen ablehnt. MARS überträgt sie aus dem Textmodell und wendet sie auf visuelle Modalitäten an, ohne separate Sicherheitsdaten.
- Warum ist es wichtig, dass MARS kein zusätzliches Training benötigt?
- Ein trainingsfreier Ansatz kann auf ein bereits deploytes Modell sofort angewendet werden, ohne teure Datensätze oder GPU-Ressourcen, was ihn für den Produktionseinsatz und API-only-Szenarien praktisch macht.
- An wie vielen Modellen wurde MARS getestet?
- MARS wurde an fünf aktuellen multimodalen SOTA-Modellen mit konsistenten Sicherheitsverbesserungen und ohne signifikanten Nützlichkeitsrückgang bei harmlosen Aufgaben getestet.
Verwandte Nachrichten
LangChain: Nicht vertrauenswürdigen Agenten-Code ohne externen Sandbox ausführen
arXiv:2606.28270: Agent-Native Immune System — sechsschichtige Runtime-Abwehr in der KI-Agenten-Kognitionsschleife
arXiv:2606.28061: ToolPrivacyBench — misst „Need-to-Know”-Datenschutz in LLM-Agenten mit Werkzeugen