Tandem RL: bolji handoff i čitljivost uz RLVR

Tandem RL je nova metoda treniranja jezičnih modela koja kombinira RLVR (reinforcement learning s verifikabilnim nagradama) s tandem pristupom: jači model surađuje sa zamrznutim slabijim modelom pri generiranju lanca misli. Na Qwen3-4B postiže usporedive performanse uz znatno bolju čitljivost i robusnost pri handoffu na manji model.

Istraživači s EPFL-a objavili su preprint na arXiv-u koji rješava praktičan problem suvremenih tehnika treniranja jezičnih modela za matematičko zaključivanje.

RLVR i problem čitljivosti

RLVR (Reinforcement Learning with Verifiable Rewards) jest metoda koja jezičnim modelima poboljšava sposobnost zaključivanja nagrađivanjem točnih, objektivno provjerljivih odgovora — najčešće u natjecateljskoj matematici. Modeli pri tome generiraju “lanac misli” (chain-of-thought): eksplicitan postupak razmišljanja korak po korak. No standardni RLVR razvija idiosinkratičke uzorke: miješanje jezika, nelogičnu strukturu i lošu čitljivost — što onemogućuje upotrebu naučenih obrazaca od strane slabijih modela ili ljudi.

Kako radi Tandem RL?

Tandem RL (TRL) uvodi drugačiji pristup: jači, trenirani model naizmjence generira lanac misli zajedno sa zamrznutim slabijim modelom. Oba modela dijele zajednički signal nagrade. Na taj način jači model implicitno uči pisati tako da ga slabiji može pratiti. Autori (Jiao, Singhal, West, Anderson — EPFL) trenirali su TRL na Qwen3-4B-Instruct modelu koristeći skupove zadataka natjecateljske matematike.

TRL nadmašuje standardni RLVR u čitljivosti i robusnosti handoffa

Rezultati pokazuju da TRL postiže usporedive solo performanse kao i standardni RLVR — bez pada točnosti na vlastitim zadacima. Ključna razlika leži u kvaliteti prijenosa: standardni RLVR miješa jezike i razvija neprenosive obrasce, dok TRL generira znatno čitljivije sekvence lanca misli. Rad identificira tri emergentna svojstva istog treniranja: bolji handoff na manji model, manja distribucijska divergencija i čitljiviji chain-of-thought. Rad je dostupan kao preprint na arXiv-u (cs.AI, 21 stranica).

Česta pitanja

Što je RLVR i zašto može biti problem za čitljivost?

RLVR (Reinforcement Learning with Verifiable Rewards) trenira modele nagrađivanjem točnih, provjerljivih odgovora, ali razvija idiosinkratičke uzorke — miješanje jezika i neprenosivu strukturu lanca misli — što otežava primjenu od strane slabijih modela ili ljudi.

Kako Tandem RL rješava problem handoffa na manji model?

TRL koristi zamrznuti slabiji model kao suradnika pri generiranju chain-of-thought sekvenci, čime jači model implicitno uči pisati čitljivije i konzistentnije — što rezultira boljim handoffom i manjom distribucijskom divergencijom.

arXiv:2606.28166: Tandem RL — verifikabilne nagrade uz čitljiviji lanac misli i bolji handoff na manji model

RLVR i problem čitljivosti

Kako radi Tandem RL?

TRL nadmašuje standardni RLVR u čitljivosti i robusnosti handoffa

Česta pitanja

Izvori

Povezane vijesti