人間のフィードバックからの強化学習（RLHF）

**RLHF（Reinforcement Learning from Human Feedback）**は、人間の好みを使って大規模言語モデルをより有用で、より安全で、より適切な応答へと導く学習手法です。プロセスは通常、3つのステップで進みます。

教師ありファインチューニング（SFT）： ベースモデルに高品質なデモンストレーション（プロンプトと応答のペア）のセットが示され、それらを模倣するようファインチューニングされます。
報酬モデルの学習： 人間の評価者が同じプロンプトに対する複数の応答をランキングします。これらのランキングから、別の報酬モデルが学習され、人間が特定の応答をどれくらい好むかを予測します。
RL最適化（通常はPPO）： メインのLLMがさらに学習され、報酬モデルの予測を最大化しますが、SFTバージョンから離れすぎないようKLペナルティが課されます。

OpenAIは2022年にRLHFをInstructGPTとChatGPTに使用し、ベースモデルを有用なアシスタントに変えました。Anthropicは関連する派生 — RLAIF（RL from AI Feedback）とConstitutional AI — を開発しました。これは行動ルールを人間ではなく別のモデルが提供するものです。

RLHFは現代のAI alignmentの主要ツールですが、既知の欠点があります。コストが高く、報酬モデルは「だまされやすい」（reward hacking）、人間のランキング自体が評価者の偏見を含みます。DPO（Direct Preference Optimization）のような新しい手法は、明示的な報酬モデルをスキップします。

出典

関連項目