강화학습 (Reinforcement Learning)

강화학습(Reinforcement Learning, RL)은 에이전트가 환경과의 시행착오를 통해 의사결정을 학습하는 머신러닝 패러다임입니다. 각 단계에서 에이전트는 상태를 관찰하고, 행동을 선택하며, 스칼라 보상 신호를 받습니다. 목표는 장기 누적 보상을 최대화하는 정책(policy)을 학습하는 것입니다. 지도학습과 달리 라벨이 붙은 “정답”이 없으며, 모델은 오직 자기 행동의 결과로부터 학습합니다.

강화학습은 수십 년간 로보틱스와 게임(AlphaGo, Atari)을 이끌어 왔지만, 오늘날에는 대규모 언어 모델에 핵심적입니다. RLHF에서 RL은 인간 선호로부터 학습한 보상 모델에 맞춰 최적화함으로써 베이스 모델을 유용한 어시스턴트로 변모시킵니다.

2024-2026년 들어 강화학습은 추론 모델의 엔진이 되었습니다. 검증 가능한 과제(수학, 코드)에서 올바른 최종 답에 보상을 주며 훈련함으로써, OpenAI o1/o3와 DeepSeek-R1 같은 시스템은 사람이 라벨링한 예시 없이도 긴 생각의 사슬을 발전시킵니다. 주요 과제는 보상 해킹(reward hacking)과 훈련 불안정성입니다.

출처

관련 항목