ArXiv: Neuronen identifiziert, die für schädliche Antworten großer Sprachmodelle verantwortlich sind
Warum es wichtig ist
Eine kausale Analyse der Mechanismen in LLMs zeigt, dass schädliche Inhalte in späteren Modellschichten entstehen, primär durch MLP-Blöcke. Eine kleine Menge von Neuronen in der letzten Schicht fungiert als Kontrollmechanismus für schädliche Antworten.
Warum generieren große Sprachmodelle manchmal schädliche Antworten, trotz umfangreichem Sicherheitstraining? Eine neue Studie nutzt kausale Mediationsanalyse, um die exakten Mechanismen innerhalb der Modelle zu identifizieren, die dafür verantwortlich sind.
Schlüsselentdeckung: Späte Schichten und MLP-Blöcke
Die Forscher stellten fest, dass die Generierung schädlicher Inhalte in den späteren Schichten des Modells stattfindet, primär durch Fehler in MLP-Blöcken (Multi-Layer-Perceptron), nicht in Attention-Blöcken. Die frühen Schichten des Modells erfassen den schädlichen Kontext im Prompt und propagieren diese Signale durch die MLPs zum Ausgang.
Neuronen als Kontrollmechanismus
Eine besonders interessante Entdeckung ist, dass eine kleine, spärliche Menge von Neuronen in der letzten Schicht des Modells als eine Art Kontrollmechanismus fungiert — ein „Tor”, das entscheidet, ob schädliche Inhalte generiert oder blockiert werden.
Das bedeutet, dass das Sicherheitsverhalten des Modells nicht diffus über das gesamte Netzwerk verteilt ist, sondern in spezifischen, identifizierbaren Komponenten konzentriert.
Was bedeutet das für die KI-Sicherheit?
Diese Entdeckung öffnet die Tür für gezielte Sicherheitsinterventionen — anstelle von kostspieligem RLHF-Training des gesamten Modells könnte es möglich sein, chirurgisch nur die kritischen Neuronen zu modifizieren, die schädliche Ausgaben kontrollieren. Das wäre schneller, günstiger und präziser.
Aktuelle Methoden wie RLHF (Reinforcement Learning from Human Feedback) behandeln das Modell als „Black Box” und versuchen, das Verhalten von außen zu ändern. Diese Arbeit legt nahe, dass ein präziserer, mechanistischer Ansatz für Sicherheit möglich ist — vergleichbar mit dem Unterschied zwischen einer Operation und der Einnahme von Medikamenten gegen Symptome.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Thinking with Reasoning Skills (ACL 2026 Industry Track): weniger Token, höhere Genauigkeit durch Abruf von Reasoning-Skills
DeepSeek veröffentlicht V4-Pro und V4-Flash: zwei Open-Source-Modelle mit einer Million Token Kontext und 80,6 auf SWE Verified
OpenAI stellt GPT-5.5 vor: das intelligenteste Modell für Coding, Forschung und komplexe Datenanalyse durch Werkzeuge