🤖 24 AI
🟡 🤖 Modelle Mittwoch, 15. April 2026 · 2 Min. Lesezeit

ArXiv: Neuronen identifiziert, die für schädliche Antworten großer Sprachmodelle verantwortlich sind

Warum es wichtig ist

Eine kausale Analyse der Mechanismen in LLMs zeigt, dass schädliche Inhalte in späteren Modellschichten entstehen, primär durch MLP-Blöcke. Eine kleine Menge von Neuronen in der letzten Schicht fungiert als Kontrollmechanismus für schädliche Antworten.

Warum generieren große Sprachmodelle manchmal schädliche Antworten, trotz umfangreichem Sicherheitstraining? Eine neue Studie nutzt kausale Mediationsanalyse, um die exakten Mechanismen innerhalb der Modelle zu identifizieren, die dafür verantwortlich sind.

Schlüsselentdeckung: Späte Schichten und MLP-Blöcke

Die Forscher stellten fest, dass die Generierung schädlicher Inhalte in den späteren Schichten des Modells stattfindet, primär durch Fehler in MLP-Blöcken (Multi-Layer-Perceptron), nicht in Attention-Blöcken. Die frühen Schichten des Modells erfassen den schädlichen Kontext im Prompt und propagieren diese Signale durch die MLPs zum Ausgang.

Neuronen als Kontrollmechanismus

Eine besonders interessante Entdeckung ist, dass eine kleine, spärliche Menge von Neuronen in der letzten Schicht des Modells als eine Art Kontrollmechanismus fungiert — ein „Tor”, das entscheidet, ob schädliche Inhalte generiert oder blockiert werden.

Das bedeutet, dass das Sicherheitsverhalten des Modells nicht diffus über das gesamte Netzwerk verteilt ist, sondern in spezifischen, identifizierbaren Komponenten konzentriert.

Was bedeutet das für die KI-Sicherheit?

Diese Entdeckung öffnet die Tür für gezielte Sicherheitsinterventionen — anstelle von kostspieligem RLHF-Training des gesamten Modells könnte es möglich sein, chirurgisch nur die kritischen Neuronen zu modifizieren, die schädliche Ausgaben kontrollieren. Das wäre schneller, günstiger und präziser.

Aktuelle Methoden wie RLHF (Reinforcement Learning from Human Feedback) behandeln das Modell als „Black Box” und versuchen, das Verhalten von außen zu ändern. Diese Arbeit legt nahe, dass ein präziserer, mechanistischer Ansatz für Sicherheit möglich ist — vergleichbar mit dem Unterschied zwischen einer Operation und der Einnahme von Medikamenten gegen Symptome.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.