EvoLM: 8B model bez supervizije +25,7% RewardBench

EvoLM je post-training metoda koja eliminira vanjsku superviziju — Qwen3-8B rubric generator nadmašuje GPT-4.1 na RewardBench-2 za 25,7% i SkyWork-RM za 16%, dok trenirana policy doseže 69,3% na OLMo3-Adapt benchmarku.

Novi rad s arXiv-a uvodi metodu post-treniranja koja u potpunosti eliminira ovisnost o eksternoj superviziji. EvoLM dopušta jezičnom modelu da se sam poboljšava koristeći takozvane “discriminative rubrics” — eksplicitne kriterijske skale koje ko-evoluiraju zajedno s policy modelom kroz iterativni trening.

Što čini ovaj pristup drugačijim?

Klasični RLHF (Reinforcement Learning from Human Feedback — metoda fine-tuninga pomoću ljudskih ocjena outputa) zahtijeva ili ljudske oznake ili odvojeni reward model treniran na njima. EvoLM umjesto toga koristi temporalni kontrast: stariji output modela uspoređuje s novijim, a iz te razlike izvlači signale za poboljšanje rubrika.

Sustav strukturira inherentnu sposobnost vrednovanja modela u eksplicitne rubrics koje se izmjenično treniraju s policy-jem. Time se zatvara petlja u kojoj generator i evaluator dijele istu osnovu, ali napreduju asinkrono.

Brojke koje pomiču industrijske benchmarkove

Qwen3-8B rubric generator nadmašuje GPT-4.1 na RewardBench-2 za 25,7 postotnih bodova, te SkyWork-RM (8B) — dosadašnji state-of-the-art reward model — za 16 postotnih bodova. Policy trenirana ovom metodom doseže 69,3% na OLMo3-Adapt evaluacijskom suiteu.

Ovo je rijedak slučaj u kojem otvoreni, relativno mali model nadjačava frontier model u ulozi evaluatora — što je do sada bila domena gigantskih zatvorenih sustava.

Zašto je to bitno za RLHF ekosustav?

Ako se rezultati potvrde u nezavisnoj replikaciji, EvoLM otvara put jeftinijem i transparentnijem treningu. Reward model = model koji ocjenjuje kvalitetu outputa drugog modela, a rubric = eksplicitna kriterijska skala. Otvoreni alternativi GPT-4.1 i Claude judge sustavima posebno su važni za istraživačke timove i kompanije koje ne žele eksternu API ovisnost u kritičnoj fazi treniranja.

Ostaje otvoreno pitanje koliko je metoda robusna na “reward hacking” kada model evaluira sam sebe — ali rezultati na javnim benchmark-ima sugeriraju da temporalni kontrast pruža dovoljnu zaštitu od kolapsa kvalitete.

Česta pitanja

Što EvoLM rješava što klasični RLHF ne može?

Eliminira potrebu za eksternim reward modelom ili ljudskim oznakama jer policy i discriminative rubrics ko-evoluiraju iz vlastitih starijih i novijih outputa modela.

Zašto je 8B model koji nadmašuje GPT-4.1 značajan?

Pokazuje da otvoreni manji modeli mogu preuzeti ulogu evaluatora u RLHF pipeline-ima, što smanjuje ovisnost o frontier API-jima i troškove treniranja.

Što su discriminative rubrics u kontekstu EvoLM-a?

Eksplicitne kriterijske skale koje strukturiraju inherentnu sposobnost vrednovanja modela u oblik koji se može iterativno trenirati zajedno s policy-jem.

arXiv:2605.03871: EvoLM — jezični modeli koji se sami poboljšavaju bez vanjske supervizije

Što čini ovaj pristup drugačijim?

Brojke koje pomiču industrijske benchmarkove

Zašto je to bitno za RLHF ekosustav?

Česta pitanja

Izvori

Povezane vijesti