训练
基于人类反馈的强化学习 (RLHF)
一种训练方法:人类评估者对模型多个响应进行排序,这些排序用于训练奖励模型,再通过强化学习(PPO)微调 LLM,使其变得更有帮助、更安全、更符合人类偏好。
RLHF(Reinforcement Learning from Human Feedback) 是一种训练方法,利用人类偏好将大型语言模型引导向更有帮助、更安全、更恰当的回答。该流程通常分为三个步骤:
- 监督式微调(SFT): 向基础模型展示一组高质量的示范(问答对),并对其进行微调以模仿这些示范。
- 奖励模型训练: 人类评估者对同一查询的多个回答进行排序;从这些排序中训练出一个独立的奖励模型,用于预测人类对某个回答的偏好程度。
- RL 优化(通常使用 PPO): 主 LLM 进一步训练以最大化奖励模型的预测得分,同时通过 KL 惩罚项约束模型不要偏离 SFT 版本太远。
OpenAI 于 2022 年将 RLHF 用于 InstructGPT 和 ChatGPT,把基础模型转变为实用的助手。Anthropic 开发了相关变体——RLAIF(RL from AI Feedback)和 Constitutional AI——其中行为规则由另一个模型而非人类提供。
RLHF 是现代 AI 对齐(alignment)的主要工具,但存在已知缺点:成本高昂、奖励模型容易被「欺骗」(reward hacking),而且人类排序本身带有评估者偏见。诸如 DPO(Direct Preference Optimization)之类的新方法跳过了显式的奖励模型。