强化学习 (Reinforcement Learning)

强化学习（Reinforcement Learning，RL）是一种机器学习范式，其中智能体（agent）通过在环境中不断试错来学习决策。在每一步，智能体观察当前状态、执行一个动作，并获得一个标量的奖励信号；目标是学习一种策略（policy），使长期累积奖励最大化。与监督学习不同，强化学习没有标注好的「正确答案」——模型完全从自身行为的后果中学习。

强化学习数十年来驱动着机器人和博弈领域（AlphaGo、Atari），如今对大型语言模型至关重要。在 RLHF 中，RL 通过针对从人类偏好中学到的奖励模型进行优化，把基础模型转变为有帮助的助手。

2024-2026 年间，强化学习已成为推理模型的引擎：在可验证任务（数学、代码）上训练，并对正确的最终答案给予奖励，OpenAI o1/o3 与 DeepSeek-R1 等系统无需人工标注示例即可发展出长思维链。主要挑战仍是奖励欺骗（reward hacking）与训练不稳定性。

来源

另见