Učenje potkrepljivanjem (Reinforcement Learning)

Učenje potkrepljivanjem (Reinforcement Learning, RL) je paradigma strojnog učenja u kojoj agent uči donositi odluke kroz pokušaj i pogrešku u nekoj okolini. U svakom koraku agent vidi stanje, izvodi akciju i prima skalarni signal nagrade; cilj je naučiti strategiju (policy) koja maksimizira ukupnu nagradu kroz vrijeme. Za razliku od nadziranog učenja, nema “točnog odgovora” — model uči isključivo iz posljedica vlastitih akcija.

RL je desetljećima napajao robotiku i igre (AlphaGo, Atari), no danas je presudan za velike jezične modele. U sklopu RLHF-a RL pretvara bazni model u korisnog asistenta optimizacijom prema modelu nagrade naučenom iz ljudskih preferencija.

Od 2024.-2026. RL je postao motor modela rezoniranja: treniranjem na verifikabilnim zadacima (matematika, kod) uz nagradu za točan konačni odgovor, modeli poput OpenAI o1/o3 i DeepSeek-R1 razvijaju dugi lanac razmišljanja bez ljudski označenih primjera. Glavni izazovi ostaju “reward hacking” i nestabilnost treniranja.

Izvori

Vidi također