인간 피드백 기반 강화학습 (RLHF)

**RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)**는 인간의 선호를 사용하여 대규모 언어 모델 (LLM)을 더 유용하고, 더 안전하고, 더 적절한 응답으로 이끄는 학습 기법입니다. 과정은 일반적으로 세 단계로 진행됩니다:

지도 파인튜닝 (SFT): 베이스 모델에 고품질 시연 세트(프롬프트-응답 쌍)가 제시되고, 그것들을 모방하도록 파인튜닝됩니다.
보상 모델 학습: 인간 평가자들이 동일한 프롬프트에 대한 여러 응답에 순위를 매기고, 이러한 순위로부터 별도의 보상 모델이 학습되어 인간이 특정 응답을 얼마나 선호할지 예측합니다.
RL 최적화 (보통 PPO): 메인 LLM이 보상 모델의 예측을 최대화하도록 추가로 학습되며, SFT 버전에서 너무 멀어지지 않도록 KL 페널티가 부여됩니다.

OpenAI는 2022년 RLHF를 InstructGPT와 ChatGPT에 사용하여 베이스 모델을 유용한 어시스턴트로 변모시켰습니다. Anthropic은 관련 변형을 개발했습니다 — RLAIF(RL from AI Feedback)와 Constitutional AI — 여기서 행동 규칙은 인간이 아닌 다른 모델이 제공합니다.

RLHF는 현대 AI 정렬의 주요 도구이지만, 알려진 단점이 있습니다. 비용이 많이 들고, 보상 모델은 쉽게 “속임수”를 당하며(reward hacking), 인간 순위 자체가 평가자의 편향을 담고 있습니다. DPO(Direct Preference Optimization) 같은 새로운 방법은 명시적인 보상 모델을 건너뜁니다.

출처

관련 항목