Treniranje
Učenje potkrepljivanjem (Reinforcement Learning)
Paradigma treniranja u kojoj agent uči donositi odluke kroz interakciju s okolinom, vođen signalima nagrade; temelj je RLHF-a i treniranja modela rezoniranja.
Učenje potkrepljivanjem (Reinforcement Learning, RL) je paradigma strojnog učenja u kojoj agent uči donositi odluke kroz pokušaj i pogrešku u nekoj okolini. U svakom koraku agent vidi stanje, izvodi akciju i prima skalarni signal nagrade; cilj je naučiti strategiju (policy) koja maksimizira ukupnu nagradu kroz vrijeme. Za razliku od nadziranog učenja, nema “točnog odgovora” — model uči isključivo iz posljedica vlastitih akcija.
RL je desetljećima napajao robotiku i igre (AlphaGo, Atari), no danas je presudan za velike jezične modele. U sklopu RLHF-a RL pretvara bazni model u korisnog asistenta optimizacijom prema modelu nagrade naučenom iz ljudskih preferencija.
Od 2024.-2026. RL je postao motor modela rezoniranja: treniranjem na verifikabilnim zadacima (matematika, kod) uz nagradu za točan konačni odgovor, modeli poput OpenAI o1/o3 i DeepSeek-R1 razvijaju dugi lanac razmišljanja bez ljudski označenih primjera. Glavni izazovi ostaju “reward hacking” i nestabilnost treniranja.