arXiv:2605.04572: SQSD misst Sicherheitsverschlechterung bei LLMs

Eine auf der ICML 2026 akzeptierte Arbeit stellt SQSD vor — eine Methode zur Quantifizierung des Einflusses einzelner Stichproben auf die Sicherheitsverschlechterung eines Modells. Forscher zeigen, dass selbst scheinbar harmlose Fine-Tuning-Stichproben die Parameter kumulativ in Richtung „danger-aligned” verschieben.

Die Autoren Xiao Wang, Yifei Zhang, YongKang Liu, Xiaocui Yang, Zihan Wang, Shi Feng und Daling Wang veröffentlichten am 6. Mai 2026 die Arbeit arXiv:2605.04572, akzeptiert auf der ICML 2026, in der sie SQSD (Sample-level Quantification of Safety Degradation) vorstellen — eine Methode zur Quantifizierung des Beitrags einzelner Stichproben zur Sicherheitsverschlechterung beim Fine-Tuning großer Sprachmodelle.

Hauptbefund: Auch harmlose Stichproben verschlechtern die Sicherheit

Laut Abstract „verursacht harmloses Fine-Tuning kumulative Parameterverschiebungen in Richtung „danger-aligned”, was die Sicherheit des Modells schrittweise untergräbt.” Mit anderen Worten: Selbst wenn ein Entwicklungsteam scheinbar neutrale Daten für das Fine-Tuning verwendet, kann das Ergebnis die Erosion von Sicherheitsverhalten sein, das das Modell durch Präferenz-Training (RLHF, DPO und ähnliche Methoden) erworben hat.

Wie funktioniert SQSD?

SQSD berechnet einen Risikowert pro Stichprobe, indem gemessen wird, wie die aus dieser Stichprobe resultierenden Parameteraktualisierungen auf sichere bzw. gefährliche Richtungen im Parameterraum projizieren. Stichproben, deren Aktualisierungen die Parameter in Richtung gefährlicher Richtungen ziehen, erhalten einen hohen Risikowert, auch wenn der eigentliche Textinhalt harmlos ist. Damit werden die Stichproben identifiziert, die am meisten zur Erosion der Sicherheit beitragen.

Übertragbarkeit über Architekturen hinweg

Experimente zeigen „starke Übertragbarkeit über verschiedene Modellgrößen, Architekturen und parametereffiziente Trainingsansätze” (LoRA, Prefix-Tuning usw.). Das bedeutet, dass die Methode nicht für jede Kombination aus Modell und Trainingstechnik separat kalibriert werden muss.

Warum ist das wichtig?

Die bestehende Fine-Tuning-Praxis stützt sich auf die Annahme, dass harmlose Datensätze die Sicherheit nicht gefährden. SQSD zeigt, dass diese Annahme auf Parameterebene falsch ist — und eröffnet die Möglichkeit, vor dem Start eines Fine-Tuning-Jobs ein Risiko-Scoring durchzuführen und Stichproben, die am meisten zum Drift in Richtung gefährlicher Richtungen beitragen, auszusortieren oder neu zu gewichten. Dies ist ein praktisches Werkzeug für Organisationen, die offene Modelle für interne Zwecke feinabstimmen.

Häufig gestellte Fragen

Was ist SQSD?

Sample-level Quantification of Safety Degradation — eine Methode, die für jede einzelne Fine-Tuning-Stichprobe einen Risikowert berechnet, basierend darauf, wie ihre Parameteraktualisierungen auf sichere bzw. gefährliche Richtungen im Parameterraum projizieren.

Was ist ICML?

International Conference on Machine Learning — eine der drei führenden akademischen Konferenzen im Bereich maschinelles Lernen.

Was ist der Hauptbefund der Arbeit?

Auch harmlose Fine-Tuning-Stichproben verursachen kumulative Parameterverschiebungen in Richtung „danger-aligned”, was die Sicherheitsausrichtung des Modells schrittweise untergräbt.

arXiv:2605.04572: SQSD zeigt, dass auch harmloses Fine-Tuning die Modellsicherheit untergräbt

Hauptbefund: Auch harmlose Stichproben verschlechtern die Sicherheit

Wie funktioniert SQSD?

Übertragbarkeit über Architekturen hinweg

Warum ist das wichtig?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten