強化学習（Reinforcement Learning）

強化学習（Reinforcement Learning、RL）は、エージェントが環境との試行錯誤を通じて意思決定を学ぶ機械学習のパラダイムです。各ステップでエージェントは状態を観測し、行動を選び、スカラーの報酬信号を受け取ります。目標は、長期的な累積報酬を最大化する方策（ポリシー）を学ぶことです。教師あり学習と異なり、ラベル付きの「正解」は存在せず、モデルは自らの行動の結果だけから学習します。

強化学習は数十年にわたりロボティクスやゲーム（AlphaGo、Atari）を支えてきましたが、今日では大規模言語モデルにとって不可欠です。RLHFでは、人間の好みから学習した報酬モデルに対して最適化することで、ベースモデルを有用なアシスタントへと変えます。

2024-2026年にかけて、強化学習は推論モデルのエンジンとなりました。検証可能なタスク（数学、コード）で正しい最終回答に報酬を与えて訓練することで、OpenAI o1/o3やDeepSeek-R1などは人手のラベルなしに長い思考の連鎖を獲得します。主な課題は報酬ハッキング（reward hacking）と訓練の不安定性です。

出典

関連項目