Was ist SIREN und wie unterscheidet es sich von klassischen Guard-Modellen?

SIREN ist ein leichtgewichtiges Guard-Modell, das schädliche Inhalte erkennt, indem es die internen Aktivierungen eines LLM über mehrere Schichten hinweg liest, anstatt nur die endgültige Ausgabe zu analysieren — dem Ansatz traditioneller Filter.

Was sind die wichtigsten Vorteile und Einschränkungen?

Vorteile sind 250× weniger Parameter, bessere Generalisierung auf neue Benchmarks und höhere Inferenzeffizienz. Die Haupteinschränkung ist die Notwendigkeit eines White-Box-Zugangs zu den internen Zuständen des Modells, was Open-Source-Modelle begünstigt.

SIREN: LLM-Sicherheit aus internen Modellrepräsentationen

Ein neues Forschungspapier mit dem Titel „LLM Safety From Within: Detecting Harmful Content with Internal Representations”, das das System SIREN vorstellt, wurde am 20. April 2026 auf ArXiv veröffentlicht (ID 2604.18519). Die Autoren Difan Jiao, Yilun Liu, Ye Yuan, Zhenwei Tang, Linfeng Du, Haolun Wu und Ashton Anderson schlagen einen Wechsel vom klassischen Output-Filtering zur Erkennung aus den internen Zuständen des Modells vor, was die Art und Weise, wie Open-Source-LLMs Sicherheit implementieren, grundlegend verändern könnte.

Was ist Output-Filtering und warum verlässt SIREN diesen Ansatz?

Die meisten heutigen Sicherheitsmechanismen — einschließlich Claude, GPT und Llama — verlassen sich auf Output-Filtering. Das Modell erzeugt Text, und ein separates „Guard-Modell” überprüft diesen Text und entscheidet, ob er weitergeleitet, zensiert oder mit einer Ablehnungsnachricht beantwortet wird. Solche Guard-Modelle sind in der Regel groß, rechenintensiv und reagieren nachdem das Modell bereits Aufwand in die Generierung investiert hat.

SIREN ändert die Perspektive. Anstatt nur das finale Token oder die Ausgabe zu analysieren, verwendet es lineares Probing (lineares Sondieren), um „Sicherheitsneuronen” zu finden, die über mehrere Schichten des Modells verteilt sind. Dabei werden Hidden States und Aktivierungen analysiert — die internen numerischen Vektoren, die das Modell während der Verarbeitung von Eingaben erzeugt. Diese Informationen existieren, bevor ein einziges Wort der Ausgabe gesprochen wurde, sodass SIREN früher und präziser reagieren kann.

Wie genau funktioniert die adaptive schichtgewichtete Strategie?

SIREN wendet eine adaptive Layer-Weighted-Strategie an: Anstatt alle Schichten gleich zu behandeln, lernt es, welche Schichten bei der endgültigen Schädlichkeitsentscheidung stärker gewichtet werden sollen. Lineares Probing ist eine Technik, bei der auf jeder Schicht ein kleiner linearer Klassifikator trainiert wird, der bewertet, ob die Darstellung auf dieser Schicht „sicher” oder „gefährlich” ist. Die Autoren zeigen, dass sicherheitsrelevante Merkmale „über interne Schichten verteilt” sind — sie befinden sich also nicht nur am Ende, sondern sind über den gesamten Verarbeitungsweg verstreut.

Die Ergebnisse sind beeindruckend. SIREN „übertrifft deutlich State-of-the-Art Open-Source-Guard-Modelle” mit 250-mal weniger trainierten Parametern. Es zeigt auch eine bessere Generalisierung auf Benchmarks, die während des Trainings nicht gesehen wurden, was traditionell ein Schwachpunkt von Sicherheitsklassifikatoren ist. Aufgrund seiner geringen Größe ist die Inferenz viel schneller als bei generativen Guard-Modellen, die eine Erklärung, warum etwas schädlich ist, selbst „ausschreiben” müssen.

Für wen ist dies wichtig und welche Einschränkungen gibt es?

Der Hauptvorteil aus Nutzersicht sind weniger falsche Ablehnungen — wenn das Modell eine legitime Anfrage ablehnt, weil der Guard sie zu konservativ klassifiziert. Da SIREN interne Zustände liest, unterscheidet es besser zwischen echten Absichten und oberflächlichen Auslösern (z. B. wird das Wort „Angriff” im Kontext der Cybersecurity-Schulung nicht automatisch eine Blockierung auslösen).

Die Haupteinschränkung ist klar: SIREN erfordert White-Box-Zugang zum Modell — also die Möglichkeit, interne Aktivierungen zu lesen. Dies schließt es von geschlossenen kommerziellen APIs wie denen von OpenAI oder Anthropic aus, wo interne Zustände nicht zugänglich sind. Andererseits macht genau dies SIREN besonders attraktiv für das Open-Source-Ökosystem (Llama, Qwen, Mistral, DeepSeek), wo Hidden States vollständig zugänglich sind und Entwickler oft eine kostengünstige, lokale Sicherheitsinfrastruktur benötigen, ohne Inhalte an externe Guard-Dienste zu senden.

SIREN: Ein neuer Ansatz zur LLM-Sicherheit, der interne Modellzustände liest statt Ausgaben zu filtern

Was ist Output-Filtering und warum verlässt SIREN diesen Ansatz?

Wie genau funktioniert die adaptive schichtgewichtete Strategie?

Für wen ist dies wichtig und welche Einschränkungen gibt es?

Quellen

Verwandte Nachrichten