Pojačano učenje iz ljudske povratne informacije (RLHF)

RLHF (Reinforcement Learning from Human Feedback) je tehnika treniranja koja koristi ljudske preferencije za usmjeravanje velikog jezičnog modela prema korisnijim, sigurnijim i prikladnijim odgovorima. Postupak se obično odvija u tri koraka:

Supervisirano fino podešavanje (SFT): baznom modelu pokaže se skup demonstracija visoke kvalitete (par upit-odgovor) i fino se podešava imitirati ih.
Trening modela nagrade: ljudski ocjenjivači rangiraju više odgovora na isti upit; iz tih rangova trenira se zaseban model nagrade koji predviđa koliko bi čovjek volio određeni odgovor.
RL optimizacija (najčešće PPO): glavni LLM dalje se trenira kako bi maksimizirao predviđanja modela nagrade, uz KL kaznu da se ne udalji predaleko od SFT verzije.

OpenAI je 2022. RLHF iskoristio za InstructGPT i ChatGPT, što je pretvorilo bazne modele u korisne asistente. Anthropic je razvio srodnu varijantu — RLAIF (RL from AI Feedback) i Constitutional AI — gdje pravila o ponašanju daje drugi model umjesto čovjeka.

RLHF je glavni alat suvremenog usklađivanja AI-ja, ali ima poznate nedostatke: skup je, modeli nagrade lako se “zavaraju” (reward hacking), a ljudski rangovi sami po sebi nose pristranosti ocjenjivača. Novije metode poput DPO-a (Direct Preference Optimization) preskaču eksplicitan model nagrade.

Izvori

Vidi također