Reinforcement Learning from Human Feedback (RLHF)

RLHF (Reinforcement Learning from Human Feedback) ist eine Trainingsmethode, die menschliche Präferenzen nutzt, um ein großes Sprachmodell zu hilfreicheren, sichereren und angemesseneren Antworten zu lenken. Der Prozess läuft typischerweise in drei Schritten ab:

Supervised Fine-Tuning (SFT): Dem Basismodell wird eine Menge hochwertiger Demonstrationen (Frage-Antwort-Paare) gezeigt, und es wird feinabgestimmt, um diese zu imitieren.
Reward-Model-Training: Menschliche Bewerter ranken mehrere Antworten zu derselben Anfrage; aus diesen Rankings wird ein separates Reward-Modell trainiert, das vorhersagt, wie sehr ein Mensch eine bestimmte Antwort bevorzugen würde.
RL-Optimierung (meist PPO): Das Haupt-LLM wird weiter trainiert, um die Vorhersagen des Reward-Modells zu maximieren, mit einer KL-Strafe, damit es sich nicht zu weit von der SFT-Version entfernt.

OpenAI nutzte RLHF 2022 für InstructGPT und ChatGPT, was Basismodelle in nützliche Assistenten verwandelte. Anthropic entwickelte eine verwandte Variante — RLAIF (RL from AI Feedback) und Constitutional AI —, bei der Verhaltensregeln von einem anderen Modell statt von einem Menschen vorgegeben werden.

RLHF ist das wichtigste praktische Werkzeug der modernen KI-Alignment-Forschung, hat aber bekannte Schwächen: Es ist teuer, Reward-Modelle lassen sich leicht „austricksen” (Reward Hacking), und menschliche Rankings tragen die Verzerrungen der Bewerter in sich. Neuere Methoden wie DPO (Direct Preference Optimization) überspringen das explizite Reward-Modell.

Quellen

Siehe auch