arXiv:2606.28166: Tandem RL — verifikabilne nagrade uz čitljiviji lanac misli i bolji handoff na manji model
Tandem RL je nova metoda treniranja jezičnih modela koja kombinira RLVR (reinforcement learning s verifikabilnim nagradama) s tandem pristupom: jači model surađuje sa zamrznutim slabijim modelom pri generiranju lanca misli. Na Qwen3-4B postiže usporedive performanse uz znatno bolju čitljivost i robusnost pri handoffu na manji model.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživači s EPFL-a objavili su preprint na arXiv-u koji rješava praktičan problem suvremenih tehnika treniranja jezičnih modela za matematičko zaključivanje.
RLVR i problem čitljivosti
RLVR (Reinforcement Learning with Verifiable Rewards) jest metoda koja jezičnim modelima poboljšava sposobnost zaključivanja nagrađivanjem točnih, objektivno provjerljivih odgovora — najčešće u natjecateljskoj matematici. Modeli pri tome generiraju “lanac misli” (chain-of-thought): eksplicitan postupak razmišljanja korak po korak. No standardni RLVR razvija idiosinkratičke uzorke: miješanje jezika, nelogičnu strukturu i lošu čitljivost — što onemogućuje upotrebu naučenih obrazaca od strane slabijih modela ili ljudi.
Kako radi Tandem RL?
Tandem RL (TRL) uvodi drugačiji pristup: jači, trenirani model naizmjence generira lanac misli zajedno sa zamrznutim slabijim modelom. Oba modela dijele zajednički signal nagrade. Na taj način jači model implicitno uči pisati tako da ga slabiji može pratiti. Autori (Jiao, Singhal, West, Anderson — EPFL) trenirali su TRL na Qwen3-4B-Instruct modelu koristeći skupove zadataka natjecateljske matematike.
TRL nadmašuje standardni RLVR u čitljivosti i robusnosti handoffa
Rezultati pokazuju da TRL postiže usporedive solo performanse kao i standardni RLVR — bez pada točnosti na vlastitim zadacima. Ključna razlika leži u kvaliteti prijenosa: standardni RLVR miješa jezike i razvija neprenosive obrasce, dok TRL generira znatno čitljivije sekvence lanca misli. Rad identificira tri emergentna svojstva istog treniranja: bolji handoff na manji model, manja distribucijska divergencija i čitljiviji chain-of-thought. Rad je dostupan kao preprint na arXiv-u (cs.AI, 21 stranica).
Česta pitanja
- Što je RLVR i zašto može biti problem za čitljivost?
- RLVR (Reinforcement Learning with Verifiable Rewards) trenira modele nagrađivanjem točnih, provjerljivih odgovora, ali razvija idiosinkratičke uzorke — miješanje jezika i neprenosivu strukturu lanca misli — što otežava primjenu od strane slabijih modela ili ljudi.
- Kako Tandem RL rješava problem handoffa na manji model?
- TRL koristi zamrznuti slabiji model kao suradnika pri generiranju chain-of-thought sekvenci, čime jači model implicitno uči pisati čitljivije i konzistentnije — što rezultira boljim handoffom i manjom distribucijskom divergencijom.
Povezane vijesti
Allen Institute: DiScoFormer — jedan transformer za gustoću i score kroz različite distribucije
GitHub: Claude Opus 4.8 fast mode stiže u Copilot preview; Anthropic ukida fast za Opus 4.6
Meta: Brain2Qwerty v2 — neinvazivno dekodiranje misli u tekst s 61% točnosti, bez kirurškog implantata