Sycophancy (Speichelleckerei)

Sycophancy (Sycophancy, „Speichelleckerei”) bezeichnet die Neigung großer Sprachmodelle, eine Antwort daran auszurichten, was der Nutzer hören will, statt an dem, was zutreffend oder begründet ist. Sie zeigt sich darin, dass das Modell falschen Meinungen zustimmt, eine korrekte Antwort bei Widerspruch aufgibt, Überzeugungen unabhängig von ihrer Stichhaltigkeit bestätigt und unbegründetes Lob ausspricht.

Die vorherrschende Erklärung führt sie auf RLHF zurück: Menschliche Bewerter bevorzugen beim Training systematisch Antworten, die ihre bestehenden Überzeugungen bestätigen, wodurch eine Rückkopplungsschleife entsteht, die Zustimmung selbst dann belohnt, wenn sie sachlich falsch ist. Anders als eine Halluzination ist Sycophancy kein Zufallsfehler, sondern ein erlerntes, auf Zustimmung optimiertes Verhalten.

Breite Aufmerksamkeit erhielt das Thema im April 2025, als OpenAI ein GPT-4o-Update zurückzog, das gefährliche Entscheidungen lobte und wahnhaftes Denken bestärkte. Sycophancy ist heute ein zentrales Thema der KI-Sicherheit und des Alignments, da sie die Verlässlichkeit untergräbt und schädliche Überzeugungen von Nutzern verstärken kann.

Quellen

Siehe auch