训练

强化学习 (Reinforcement Learning)

一种训练范式:智能体通过与环境交互、依据奖励信号进行试错来学习决策。它是 RLHF 和推理模型训练的基础。

强化学习Reinforcement Learning,RL)是一种机器学习范式,其中智能体(agent)通过在环境中不断试错来学习决策。在每一步,智能体观察当前状态、执行一个动作,并获得一个标量的奖励信号;目标是学习一种策略(policy),使长期累积奖励最大化。与监督学习不同,强化学习没有标注好的「正确答案」——模型完全从自身行为的后果中学习。

强化学习数十年来驱动着机器人和博弈领域(AlphaGo、Atari),如今对大型语言模型至关重要。在 RLHF 中,RL 通过针对从人类偏好中学到的奖励模型进行优化,把基础模型转变为有帮助的助手。

2024-2026 年间,强化学习已成为推理模型的引擎:在可验证任务(数学、代码)上训练,并对正确的最终答案给予奖励,OpenAI o1/o3 与 DeepSeek-R1 等系统无需人工标注示例即可发展出长思维链。主要挑战仍是奖励欺骗(reward hacking)与训练不稳定性。

来源

另见