🤖 24 AI
🟡 🛡️ Sicherheit Dienstag, 21. April 2026 · 3 Min. Lesezeit

SIREN: Ein neuer Ansatz zur LLM-Sicherheit, der interne Modellzustände liest statt Ausgaben zu filtern

Editorial illustration: SIREN: ein neuer Ansatz zur LLM-Sicherheit, der interne Modellzustände liest statt Ausgaben zu filtern

Warum es wichtig ist

SIREN ist ein neuer Sicherheitsmechanismus für große Sprachmodelle, der schädliche Inhalte mithilfe interner neuronaler Zustände des Modells erkennt statt Ausgaben zu filtern — mit 250-mal weniger Parametern als bestehende Guard-Modelle.

Ein neues Forschungspapier mit dem Titel „LLM Safety From Within: Detecting Harmful Content with Internal Representations”, das das System SIREN vorstellt, wurde am 20. April 2026 auf ArXiv veröffentlicht (ID 2604.18519). Die Autoren Difan Jiao, Yilun Liu, Ye Yuan, Zhenwei Tang, Linfeng Du, Haolun Wu und Ashton Anderson schlagen einen Wechsel vom klassischen Output-Filtering zur Erkennung aus den internen Zuständen des Modells vor, was die Art und Weise, wie Open-Source-LLMs Sicherheit implementieren, grundlegend verändern könnte.

Was ist Output-Filtering und warum verlässt SIREN diesen Ansatz?

Die meisten heutigen Sicherheitsmechanismen — einschließlich Claude, GPT und Llama — verlassen sich auf Output-Filtering. Das Modell erzeugt Text, und ein separates „Guard-Modell” überprüft diesen Text und entscheidet, ob er weitergeleitet, zensiert oder mit einer Ablehnungsnachricht beantwortet wird. Solche Guard-Modelle sind in der Regel groß, rechenintensiv und reagieren nachdem das Modell bereits Aufwand in die Generierung investiert hat.

SIREN ändert die Perspektive. Anstatt nur das finale Token oder die Ausgabe zu analysieren, verwendet es lineares Probing (lineares Sondieren), um „Sicherheitsneuronen” zu finden, die über mehrere Schichten des Modells verteilt sind. Dabei werden Hidden States und Aktivierungen analysiert — die internen numerischen Vektoren, die das Modell während der Verarbeitung von Eingaben erzeugt. Diese Informationen existieren, bevor ein einziges Wort der Ausgabe gesprochen wurde, sodass SIREN früher und präziser reagieren kann.

Wie genau funktioniert die adaptive schichtgewichtete Strategie?

SIREN wendet eine adaptive Layer-Weighted-Strategie an: Anstatt alle Schichten gleich zu behandeln, lernt es, welche Schichten bei der endgültigen Schädlichkeitsentscheidung stärker gewichtet werden sollen. Lineares Probing ist eine Technik, bei der auf jeder Schicht ein kleiner linearer Klassifikator trainiert wird, der bewertet, ob die Darstellung auf dieser Schicht „sicher” oder „gefährlich” ist. Die Autoren zeigen, dass sicherheitsrelevante Merkmale „über interne Schichten verteilt” sind — sie befinden sich also nicht nur am Ende, sondern sind über den gesamten Verarbeitungsweg verstreut.

Die Ergebnisse sind beeindruckend. SIREN „übertrifft deutlich State-of-the-Art Open-Source-Guard-Modelle” mit 250-mal weniger trainierten Parametern. Es zeigt auch eine bessere Generalisierung auf Benchmarks, die während des Trainings nicht gesehen wurden, was traditionell ein Schwachpunkt von Sicherheitsklassifikatoren ist. Aufgrund seiner geringen Größe ist die Inferenz viel schneller als bei generativen Guard-Modellen, die eine Erklärung, warum etwas schädlich ist, selbst „ausschreiben” müssen.

Für wen ist dies wichtig und welche Einschränkungen gibt es?

Der Hauptvorteil aus Nutzersicht sind weniger falsche Ablehnungen — wenn das Modell eine legitime Anfrage ablehnt, weil der Guard sie zu konservativ klassifiziert. Da SIREN interne Zustände liest, unterscheidet es besser zwischen echten Absichten und oberflächlichen Auslösern (z. B. wird das Wort „Angriff” im Kontext der Cybersecurity-Schulung nicht automatisch eine Blockierung auslösen).

Die Haupteinschränkung ist klar: SIREN erfordert White-Box-Zugang zum Modell — also die Möglichkeit, interne Aktivierungen zu lesen. Dies schließt es von geschlossenen kommerziellen APIs wie denen von OpenAI oder Anthropic aus, wo interne Zustände nicht zugänglich sind. Andererseits macht genau dies SIREN besonders attraktiv für das Open-Source-Ökosystem (Llama, Qwen, Mistral, DeepSeek), wo Hidden States vollständig zugänglich sind und Entwickler oft eine kostengünstige, lokale Sicherheitsinfrastruktur benötigen, ohne Inhalte an externe Guard-Dienste zu senden.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.