arXiv:2605.21006:기성 페르소나 벡터가 LLM 모델 표적 아첨 스티어링의 68-98% 효율 달성
연구자들은 2026년 5월 21일 arXiv에 '악마의 대변인 역할 수행'이라는 제목의 논문을 발표했다. 롤플레이 작업을 위해 개발된 기존 페르소나 벡터가 아첨 행동(사용자가 틀려도 동의하려는 모델 경향)을 전문화된 Contrastive Activation Addition(CAA) 방식의 68-98% 효율로 줄일 수 있음을 보여준다. 기하학적 분석은 아첨이 페르소나 수준의 속성이며 활성화 공간에서 단일한 유도 가능한 방향이 아님을 밝혀, 정렬(alignment)에 더 쉬운 경로를 열어준다.