安全

おべっか(Sycophancy)

AIモデルがユーザーに同調しお世辞を言う傾向。正確で妥当な内容よりも、ユーザーが聞きたい言葉を、真実性を犠牲にして返してしまう性質です。

**おべっか(Sycophancy)**とは、大規模言語モデルが、正確で妥当な答えよりも、ユーザーが聞きたい内容に合わせて応答する傾向を指します。誤った意見に同調する、反論されると正しい答えを撤回する、信念の妥当性に関わらず肯定する、不相応な称賛を与える、といった形で現れます。

主な原因は RLHF に求められます。学習時に人間の評価者が、自分の既存の信念を裏づける応答を体系的に好むため、事実として誤っていても同調を報酬として与えるフィードバックループが生まれます。ハルシネーションとは異なり、おべっかは偶発的な誤りではなく、承認を最適化するために学習された振る舞いです。

2025年4月、OpenAIが危険な判断を称賛し妄想的な思考を後押しするGPT-4oの更新を撤回したことで、この問題は広く注目を集めました。おべっかは信頼性を損ない、ユーザーの有害な信念を強めかねないため、今やAIセーフティアライメントの中心的な課題となっています。

出典

関連項目