arXiv:2606.07950: CoDaPO — confidence/difficulty-adaptivna RL optimizacija za rasuđivanje
Novi rad identificira tri ponavljajuće dinamike u RL treniranju modela za rasuđivanje i predlaže CoDaPO, metodu koja pitanja ponderira prema pouzdanosti i težini. Prioritiziranjem učljivih pitanja postiže konzistentna poboljšanja kroz 12 benchmarka.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
arXiv je 6. lipnja 2026. objavio rad (oznaka arXiv:2606.07950, verzija v1, 02:51 UTC) koji predstavlja CoDaPO, confidence/difficulty-adaptivnu metodu optimizacije politike za treniranje modela rasuđivanja. Rad polazi od analize ponavljajućih problema u RL treniranju (pojačanom učenju).
Koje dinamike se javljaju u RL treniranju?
Autori identificiraju tri ponavljajuće dinamike u treniranju pojačanim učenjem. Prva je confidence inflation (napuhavanje pouzdanosti), kada model postaje sve sigurniji u svoje odgovore neovisno o stvarnoj točnosti.
Druga je advantage contraction (sažimanje prednosti), gdje se razlike u korisnosti pojedinih primjera smanjuju i otežavaju učenje. Treća je hierarchical convergence (hijerarhijska konvergencija), obrazac u kojem model konvergira u slojevima. Te tri dinamike zajedno objašnjavaju zašto standardno RL treniranje troši compute neučinkovito.
Što je CoDaPO i kako radi?
Kao odgovor na te probleme, rad predlaže CoDaPO. Metoda dodjeljuje važnost pitanjima na temelju rollout confidencea (pouzdanosti tijekom generiranja odgovora) i empirijske težine pojedinog pitanja.
Na temelju te procjene CoDaPO zatim reweighta (ponovno ponderira) policy update-ove, odnosno korake ažuriranja politike. Time se treniranje usmjerava prema onim primjerima koji najviše doprinose učenju, umjesto da se svi primjeri tretiraju jednako.
Zašto su učljiva pitanja u fokusu?
Ključna ideja je prioritiziranje “učljivih” pitanja unutar fiksnog compute budžeta. To su pitanja koja nisu ni pretjerano laka ni nerješiva, nego upravo ona iz kojih model može najviše naučiti.
Razlikovanjem pitanja koja model već pouzdano rješava od onih koja ostaju izazovna, CoDaPO izbjegava trošenje resursa na primjere koji ne donose napredak. Time se isti budžet računskih resursa koristi mnogo svrhovitije.
Koliko poboljšanje metoda donosi?
Prema radu, CoDaPO postiže konzistentna poboljšanja kroz 12 benchmarka naspram postojećih RL metoda. Riječ je o dosljednom napretku na širokom skupu zadataka, a ne o izoliranom rezultatu na jednom testu.
Cilj metode je efikasnija alokacija computea razlikovanjem pitanja koja model već rješava od onih koja ostaju teška. Upravo ta usmjerena raspodjela resursa stoji iza zabilježenih poboljšanja.
Zašto je ovaj pristup značajan?
Rad je zanimljiv jer problem treniranja modela rasuđivanja postavlja kao pitanje raspodjele pažnje, a ne samo veće količine resursa. Umjesto da se compute jednostavno poveća, CoDaPO ga pametnije usmjerava.
Time se otvara put učinkovitijem treniranju modela u uvjetima ograničenog budžeta. Za istraživače koji rade s fiksnim resursima, takav adaptivni pristup može značiti bolji rezultat bez dodatnog troška.
Česta pitanja
- Koje tri RL dinamike rad identificira?
- Rad identificira tri ponavljajuće dinamike u RL treniranju: confidence inflation (napuhavanje pouzdanosti), advantage contraction (sažimanje prednosti) i hierarchical convergence (hijerarhijsku konvergenciju). Te dinamike opisuju ponavljajuće obrasce koji se javljaju tijekom treniranja modela za rasuđivanje.
- Kako CoDaPO raspoređuje važnost pitanjima?
- CoDaPO dodjeljuje važnost pitanjima na temelju rollout confidencea (pouzdanosti tijekom generiranja) i empirijske težine, te potom reweighta policy update-ove. Cilj je prioritizirati učljiva pitanja unutar fiksnog compute budžeta.
- Koliko poboljšanje metoda donosi?
- CoDaPO postiže konzistentna poboljšanja kroz 12 benchmarka naspram postojećih RL metoda. Poboljšanja dolaze iz efikasnije alokacije computea, koja razlikuje pitanja koja model već rješava od onih koja ostaju izazovna.
Povezane vijesti
arXiv:2606.19808: SEVRA selektivnom verifikacijom štedi do 91 posto tokena u rasuđivanju modela
arXiv:2606.20333: SoftSkill komprimira skill-dokumente u 32 latentna tokena i diže LiveMath za 42,1 boda
arXiv:2606.19327: Rubric-conditioned self-distillation nadmašuje GRPO u treniranju reasoning modela