Aktivierungsrichtungen: 99,6 % Erkennung von KI-Fehlausrichtung

Abdul Rafay Syed identifizierte eine gemeinsame Richtung im Aktivierungsraum von vier LLM-Familien — Qwen2.5, Gemma-2, Llama-3.2 und Ministral-3 — die ausgerichtete von fehlausgerichteten Modellen mit 99,6 % Genauigkeit trennt, während gerichtetes Steering den Abfluss von unsicherem Code um 21–51 Punkte reduziert.

Eine gemeinsame Fehlausrichtungs-Signatur in vier Modellfamilien

Der Forscher Abdul Rafay Syed veröffentlichte am 19. Juni 2026 eine Arbeit, in der er die Entdeckung einer gemeinsamen geometrischen Richtung im Aktivierungsraum beschreibt, die ausgerichtete von fehlausgerichteten großen Sprachmodellen eindeutig unterscheidet. Die Analyse umfasst vier verschiedene Familien: Qwen2.5, Gemma-2, Llama-3.2 und Ministral-3 — alle auf unsicherem Code feinabgestimmt, um Fehlausrichtung zu induzieren.

Das zentrale Ergebnis: Die Methode erreicht eine 99,6%ige Trennung der Aktivierungen zwischen ausgerichteten und fehlausgerichteten Modellen. Dies ist eine außergewöhnlich hohe Präzision im Vergleich zu früheren Ansätzen, die auf Black-Box-Verhaltensevaluierungen (Benchmark-Tests) setzten, statt auf die interne Geometrie des Modells.

Gerichtetes Steering reduziert Code-Abfluss um 21–51 Punkte

Die identifizierten Richtungen dienen nicht nur der Erkennung — sie können auch aktiv gesteuert werden. Die Technik des Directional Steerings (gerichtete Aktivierungssteuerung) reduziert den sogenannten Code-Spillover (Abfluss unsicherer Code-Muster) je nach Modell und Konfiguration um 21 bis 51 Prozentpunkte.

Zum Vergleich: Standardmethoden der RLHF-Ausrichtung erfordern kostspieliges Nachtraining, während dieser Ansatz direkt im Aktivierungsraum eingreift, ohne die Gewichte des Modells zu verändern.

Gemma und Qwen als geometrische Spender, Llama als Empfänger

Ein besonders interessanter Befund ist der modellübergreifende Transfer: Richtungen, die an Gemma 2 und Qwen 2.5 erlernt wurden, können auf Llama 3.2 übertragen werden und die Fehlausrichtung dort um bis zu 46 Punkte unterdrücken. Der Autor bezeichnet Gemma und Qwen als „geometrische Spender” — Modelle, deren interne Ausrichtungsgeometrie robust genug ist, um andere Architekturen zu informieren.

Für Revisions- und Audit-Zwecke empfiehlt der Autor jedoch Within-Model-Probing — die Analyse innerhalb des zu untersuchenden Modells selbst —, da der modellübergreifende Transfer eine gewisse Unsicherheit bei der Interpretation mit sich bringt.

Implikationen für das Sicherheits-Audit von KI-Systemen

Die Arbeit bietet ein praktisches Werkzeug für Organisationen, die feinabgestimmte Modellversionen auf potenziell unsicheren Daten prüfen müssen. Anstatt exhaustiver Verhaltenstests genügt es, die Aktivierungsrichtung zu messen und mit einem Referenzmodell derselben Familie zu vergleichen. Die Methode ist schnell, interpretierbar und — entscheidend — funktioniert konsistent über mehrere Architekturen hinweg, ohne architekturspezifische Anpassungen.

Häufig gestellte Fragen

Was sind Aktivierungsrichtungen und warum sind sie für die LLM-Sicherheit nützlich?

Aktivierungsrichtungen sind Vektoren im internen Repräsentationsraum eines neuronalen Netzes, die unterschiedliche Modellverhalten voneinander trennen; werden sie identifiziert, lässt sich der Grad der Fehlausrichtung mathematisch messen und kontrollieren — ohne aufwendiges Nachtraining.

Können Erkenntnisse von einem Modell auf ein anderes übertragen werden?

Ja — der modellübergreifende Transfer funktioniert: Richtungen, die aus Gemma und Qwen (sogenannte geometrische Spender) extrahiert wurden, unterdrücken Fehlausrichtung in Llama 3.2 als Empfänger erfolgreich, mit einem Rückgang von bis zu 46 Punkten.

Wie wird diese Methode in der Praxis für Modell-Audits eingesetzt?

Der Autor empfiehlt Within-Model-Probing — die Analyse innerhalb des zu prüfenden Modells selbst —, da es im Audit-Szenario eine zuverlässigere Erkennung bietet als der modellübergreifende Ansatz.

arXiv:2606.20225: Aktivierungsrichtungen erkennen Fehlausrichtung von LLMs mit 99,6 % Genauigkeit

Eine gemeinsame Fehlausrichtungs-Signatur in vier Modellfamilien

Gerichtetes Steering reduziert Code-Abfluss um 21–51 Punkte

Gemma und Qwen als geometrische Spender, Llama als Empfänger

Implikationen für das Sicherheits-Audit von KI-Systemen

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten