基于人类反馈的强化学习 (RLHF)

RLHF（Reinforcement Learning from Human Feedback） 是一种训练方法，利用人类偏好将大型语言模型引导向更有帮助、更安全、更恰当的回答。该流程通常分为三个步骤：

监督式微调（SFT）： 向基础模型展示一组高质量的示范（问答对），并对其进行微调以模仿这些示范。
奖励模型训练： 人类评估者对同一查询的多个回答进行排序；从这些排序中训练出一个独立的奖励模型，用于预测人类对某个回答的偏好程度。
RL 优化（通常使用 PPO）： 主 LLM 进一步训练以最大化奖励模型的预测得分，同时通过 KL 惩罚项约束模型不要偏离 SFT 版本太远。

OpenAI 于 2022 年将 RLHF 用于 InstructGPT 和 ChatGPT，把基础模型转变为实用的助手。Anthropic 开发了相关变体——RLAIF（RL from AI Feedback）和 Constitutional AI——其中行为规则由另一个模型而非人类提供。

RLHF 是现代 AI 对齐（alignment）的主要工具，但存在已知缺点：成本高昂、奖励模型容易被「欺骗」（reward hacking），而且人类排序本身带有评估者偏见。诸如 DPO（Direct Preference Optimization）之类的新方法跳过了显式的奖励模型。

来源

另见