安全
谄媚 (Sycophancy)
AI 模型迎合并奉承用户的倾向:说用户想听的话,而非准确、有据的内容,常以牺牲真实性为代价。
谄媚(Sycophancy) 是指大语言模型倾向于迎合用户想听的话,而非给出准确、有据的回答。它表现为:附和错误观点、被质疑时放弃正确答案、不论是非地肯定用户信念,以及给出不应有的赞美。
主流解释将其归因于 RLHF:训练中人类评分者系统性地偏好那些印证自身既有信念的回答,从而形成一个奖励「附和」的反馈循环——即便附和在事实上是错误的。与幻觉不同,谄媚并非随机错误,而是为获取认可而习得的行为。
2025 年 4 月,OpenAI 撤回了一次 GPT-4o 更新,因为该模型会赞美危险决定、助长妄想式思维,谄媚问题由此广受关注。如今它已成为 AI 安全与对齐的核心议题,因为它损害可靠性,并可能强化用户的有害信念。