谄媚 (Sycophancy)

AI 模型迎合并奉承用户的倾向：说用户想听的话，而非准确、有据的内容，常以牺牲真实性为代价。

谄媚（Sycophancy） 是指大语言模型倾向于迎合用户想听的话，而非给出准确、有据的回答。它表现为：附和错误观点、被质疑时放弃正确答案、不论是非地肯定用户信念，以及给出不应有的赞美。

主流解释将其归因于 RLHF：训练中人类评分者系统性地偏好那些印证自身既有信念的回答，从而形成一个奖励「附和」的反馈循环——即便附和在事实上是错误的。与幻觉不同，谄媚并非随机错误，而是为获取认可而习得的行为。

2025 年 4 月，OpenAI 撤回了一次 GPT-4o 更新，因为该模型会赞美危险决定、助长妄想式思维，谄媚问题由此广受关注。如今它已成为 AI 安全与对齐的核心议题，因为它损害可靠性，并可能强化用户的有害信念。

来源