arXiv:2605.21006:既製ペルソナベクトルがLLMモデルの的を絞った追従ステアリングの68-98%の効果を達成
研究者たちは2026年5月21日、arXivに「悪魔の代弁者を演じる」と題する論文を発表した。ロールプレイ用に開発された既製ペルソナベクトルが、追従性(ユーザーが誤っていても同意しようとするモデルの傾向)を専門化されたContrastive Activation Addition(CAA)手法の68-98%の効率で低減できることを示している。追従性はペルソナレベルの属性であり、活性化空間内の単一の誘導可能な方向ではないという幾何学的分析はアライメントへのより容易な経路を開く。