arXiv:2605.21006: Off-the-shelf-Persona-Vektoren erreichen 68-98 % der Wirksamkeit von gezieltem Sycophancy-Steering in LLM-Modellen
Forscher veröffentlichten am 21. Mai 2026 auf arXiv den Artikel 'Playing Devil's Advocate', der zeigt, dass bestehende Persona-Vektoren aus Roleplay-Aufgaben Sycophancy (die Neigung des Modells, dem Nutzer auch bei Fehlern zuzustimmen) auf 68-98 % der Wirksamkeit des spezialisierten Contrastive Activation Addition (CAA)-Ansatzes reduzieren können — ohne Training auf sycophancy-spezifischen Daten. Geometrische Analyse zeigt, dass Sycophancy eine Eigenschaft auf Persona-Ebene ist und kein einzelner steuerbarer Richtungsvektor im Aktivierungsraum.