arXiv:2605.21006: Off-the-shelf persona vektori postižu 68-98% učinkovitosti targetiranog sycophancy steeringa u LLM modelima
Istraživači su 21. svibnja 2026. na arXivu objavili rad pod nazivom 'Playing Devil's Advocate' koji pokazuje da postojeći persona vektori razvijeni za roleplay zadatke mogu reducirati sycophancy (sklonost modela slaganju s korisnikom čak i kad griješi) na 68-98% učinkovitosti specijaliziranog Contrastive Activation Addition (CAA) pristupa — bez treniranja na sycophancy-specifičnim podacima. Geometrijska analiza otkriva da je sycophancy svojstvo na razini persone, a ne jedan vodljiv smjer u aktivacijskom prostoru, što otvara puno lakše puteve za alignment.