Self-distillacija s rubrikama pobija GRPO

Self-distillation uvjetovana rubrikama nova je metoda treniranja reasoning modela koja nadmašuje GRPO za +1,0 bod i OPSD za +0,9 bodova na benchmarkovima znanstvenog rasuđivanja. Umjesto skalarnih nagrada, pristup pretvara rubrike u token-level vodstvo za precizniju dodjelu zasluga.

Nova metoda treniranja redefinira dodjelu zasluga

Self-distillacija — metoda u kojoj model uči iz vlastitih generiranih primjera, a ne iz vanjski prikupljenih podataka — postaje sve popularnija alternativa skupim postupcima poput RLHF-a. Rad arXiv:2606.19327 uvodi rubric-conditioned self-distillation, pristup koji ovu ideju nadograđuje strukturiranim rubrikama: skupovima kriterija koji definiraju što čini dobar korak u zaključivanju. Rezultat je finija dodjela zasluga (credit assignment) na razini tokena, nasuprot skalarnoj nagradi koja cijeli odgovor ocjenjuje jednom brojkom.

Token-level vodstvo umjesto skalarne nagrade

Središnja inovacija metode leži u načinu na koji rubrike ulaze u trening. Umjesto da ostanu kao vanjski kriterij evaluacije, pretvaraju se u token-level vodstvo — informaciju kojom model zna ne samo je li odgovor točan, nego i koji su konkretni tokeni pridonijeli ispravnom ili pogrešnom zaključku. Taj mehanizam podsjeća na tehniku process reward models (PRM), ali ovdje se vodstvo generira iz rubrikalnih opisa, a ne iz zasebnog modela nagrada. GRPO (Group Relative Policy Optimization) i OPSD (Online Policy Self-Distillation), dvije trenutno dominantne metode, oslanjaju se na grupne ili agregatne signale koji gube tu granularnost.

Konzistentno poboljšanje na benchmarkovima znanstvenog rasuđivanja

Eksperimentalni rezultati potvrđuju prednost nove metode. Rubric-conditioned self-distillation nadmašuje GRPO za +1,0 bod i OPSD za +0,9 bodova u prosjeku na skupa benchmarka koji obuhvaćaju matematičko, fizikalno i kemijsko rezoniranje. U domeni gdje razlike od desetinki postotka znače tjedne dodatnog razvoja, pomak od jednog boda predstavlja mjerljiv napredak. Autori napominju da su poboljšanja konzistentna kroz sve testove, a ne samo na odabranim skupovima — što sugerira strukturnu, a ne slučajnu prednost.

Implikacije za razvoj sljedećih generacija reasoning modela

Rad ima praktične implikacije za laboratorije koji razvijaju modele poput o-serije (OpenAI) ili Claude Extended Thinking (Anthropic). Ako rubrike mogu zamijeniti ili nadopuniti skalarne nagrade bez potrebe za dodatnim modelima, trening reasoning sposobnosti postaje jeftiniji i lakše kontroliran. Istraživači napominju da metoda posebno dobro funkcionira kod višekoračnih matematičkih problema — upravo onih gdje trenutni modeli najčešće griješe u ranim fazama zaključivačkog lanca.

Česta pitanja

Što je self-distillation i kako se razlikuje od standardnog RLHF treniranja?

Self-distillation je metoda u kojoj model uči iz vlastitih generiranih primjera, za razliku od RLHF-a koji koristi vanjske ljudske ocjene ili GRPO koji optimizira grupne nagrade. Rubric-conditioned pristup dodaje strukturirane rubrike kao token-level vodstvo, što omogućuje finiju procjenu kvalitete svakog koraka u zaključivanju.

Koliko je stvarno poboljšanje rubric-conditioned self-distillacije u usporedbi s postojećim metodama?

Na benchmarkovima znanstvenog rasuđivanja nova metoda nadmašuje GRPO za +1,0 bod i OPSD za +0,9 bodova u prosječnom rezultatu, što je statistički značajno poboljšanje u domeni gdje su pomaci od djelića postotka uobičajeni.

arXiv:2606.19327: Rubric-conditioned self-distillation nadmašuje GRPO u treniranju reasoning modela

Nova metoda treniranja redefinira dodjelu zasluga

Token-level vodstvo umjesto skalarne nagrade

Konzistentno poboljšanje na benchmarkovima znanstvenog rasuđivanja

Implikacije za razvoj sljedećih generacija reasoning modela

Česta pitanja

Izvori

Povezane vijesti