Sicherheit
Interpretierbarkeit (interpretability)
Ein Forschungsfeld, das die internen Mechanismen von KI-Modellen — Features und Circuits — verstehen will, um zu erklären, warum ein Modell eine bestimmte Ausgabe erzeugt.
Interpretierbarkeit (interpretability) ist ein Forschungsfeld, das verstehen will, warum ein KI-Modell eine bestimmte Ausgabe erzeugt, statt es als Blackbox zu behandeln. Die mechanistische Interpretierbarkeit geht weiter und versucht, die internen Berechnungen eines neuronalen Netzes zurückzuentwickeln — ähnlich dem Lesen von Maschinencode.
Die zentralen Bausteine sind Features — Richtungen im Aktivierungsraum, die menschlich verständlichen Konzepten entsprechen — und Circuits — kausale Ketten von Features, die eine Berechnung ausführen. Einzelne Neuronen kodieren meist mehrere Konzepte gleichzeitig (Polysemantizität), weshalb Forscher Sparse Autoencoder und Dictionary Learning nutzen, um Aktivierungen in Tausende eigenständige, interpretierbare Features zu zerlegen.
Das Feld steht 2025–2026 im Mittelpunkt: Anthropic extrahierte Millionen Features aus Claude, darunter solche zu Täuschung und Verzerrung, was einen Weg zur Überwachung und Steuerung des Modellverhaltens eröffnet. Interpretierbarkeit ist ein zunehmend wichtiges Werkzeug für KI-Sicherheit und Alignment — ohne Einblick in die Mechanismen lässt sich kaum nachweisen, dass ein Modell nicht auf unerwartete Weise versagt.