ArXiv: Neuronen identifiziert, die für schädliche Antworten großer Sprachmodelle verantwortlich sind

Warum generieren große Sprachmodelle manchmal schädliche Antworten, trotz umfangreichem Sicherheitstraining? Eine neue Studie nutzt kausale Mediationsanalyse, um die exakten Mechanismen innerhalb der Modelle zu identifizieren, die dafür verantwortlich sind.

Schlüsselentdeckung: Späte Schichten und MLP-Blöcke

Die Forscher stellten fest, dass die Generierung schädlicher Inhalte in den späteren Schichten des Modells stattfindet, primär durch Fehler in MLP-Blöcken (Multi-Layer-Perceptron), nicht in Attention-Blöcken. Die frühen Schichten des Modells erfassen den schädlichen Kontext im Prompt und propagieren diese Signale durch die MLPs zum Ausgang.

Neuronen als Kontrollmechanismus

Eine besonders interessante Entdeckung ist, dass eine kleine, spärliche Menge von Neuronen in der letzten Schicht des Modells als eine Art Kontrollmechanismus fungiert — ein „Tor”, das entscheidet, ob schädliche Inhalte generiert oder blockiert werden.

Das bedeutet, dass das Sicherheitsverhalten des Modells nicht diffus über das gesamte Netzwerk verteilt ist, sondern in spezifischen, identifizierbaren Komponenten konzentriert.

Was bedeutet das für die KI-Sicherheit?

Diese Entdeckung öffnet die Tür für gezielte Sicherheitsinterventionen — anstelle von kostspieligem RLHF-Training des gesamten Modells könnte es möglich sein, chirurgisch nur die kritischen Neuronen zu modifizieren, die schädliche Ausgaben kontrollieren. Das wäre schneller, günstiger und präziser.

Aktuelle Methoden wie RLHF (Reinforcement Learning from Human Feedback) behandeln das Modell als „Black Box” und versuchen, das Verhalten von außen zu ändern. Diese Arbeit legt nahe, dass ein präziserer, mechanistischer Ansatz für Sicherheit möglich ist — vergleichbar mit dem Unterschied zwischen einer Operation und der Einnahme von Medikamenten gegen Symptome.

ArXiv: Neuronen identifiziert, die für schädliche Antworten großer Sprachmodelle verantwortlich sind

Schlüsselentdeckung: Späte Schichten und MLP-Blöcke

Neuronen als Kontrollmechanismus

Was bedeutet das für die KI-Sicherheit?

Quellen

Verwandte Nachrichten