arXiv:2605.03871: EvoLM — jezični modeli koji se sami poboljšavaju bez vanjske supervizije
EvoLM je post-training metoda koja eliminira vanjsku superviziju — Qwen3-8B rubric generator nadmašuje GPT-4.1 na RewardBench-2 za 25,7% i SkyWork-RM za 16%, dok trenirana policy doseže 69,3% na OLMo3-Adapt benchmarku.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Novi rad s arXiv-a uvodi metodu post-treniranja koja u potpunosti eliminira ovisnost o eksternoj superviziji. EvoLM dopušta jezičnom modelu da se sam poboljšava koristeći takozvane “discriminative rubrics” — eksplicitne kriterijske skale koje ko-evoluiraju zajedno s policy modelom kroz iterativni trening.
Što čini ovaj pristup drugačijim?
Klasični RLHF (Reinforcement Learning from Human Feedback — metoda fine-tuninga pomoću ljudskih ocjena outputa) zahtijeva ili ljudske oznake ili odvojeni reward model treniran na njima. EvoLM umjesto toga koristi temporalni kontrast: stariji output modela uspoređuje s novijim, a iz te razlike izvlači signale za poboljšanje rubrika.
Sustav strukturira inherentnu sposobnost vrednovanja modela u eksplicitne rubrics koje se izmjenično treniraju s policy-jem. Time se zatvara petlja u kojoj generator i evaluator dijele istu osnovu, ali napreduju asinkrono.
Brojke koje pomiču industrijske benchmarkove
Qwen3-8B rubric generator nadmašuje GPT-4.1 na RewardBench-2 za 25,7 postotnih bodova, te SkyWork-RM (8B) — dosadašnji state-of-the-art reward model — za 16 postotnih bodova. Policy trenirana ovom metodom doseže 69,3% na OLMo3-Adapt evaluacijskom suiteu.
Ovo je rijedak slučaj u kojem otvoreni, relativno mali model nadjačava frontier model u ulozi evaluatora — što je do sada bila domena gigantskih zatvorenih sustava.
Zašto je to bitno za RLHF ekosustav?
Ako se rezultati potvrde u nezavisnoj replikaciji, EvoLM otvara put jeftinijem i transparentnijem treningu. Reward model = model koji ocjenjuje kvalitetu outputa drugog modela, a rubric = eksplicitna kriterijska skala. Otvoreni alternativi GPT-4.1 i Claude judge sustavima posebno su važni za istraživačke timove i kompanije koje ne žele eksternu API ovisnost u kritičnoj fazi treniranja.
Ostaje otvoreno pitanje koliko je metoda robusna na “reward hacking” kada model evaluira sam sebe — ali rezultati na javnim benchmark-ima sugeriraju da temporalni kontrast pruža dovoljnu zaštitu od kolapsa kvalitete.
Česta pitanja
- Što EvoLM rješava što klasični RLHF ne može?
- Eliminira potrebu za eksternim reward modelom ili ljudskim oznakama jer policy i discriminative rubrics ko-evoluiraju iz vlastitih starijih i novijih outputa modela.
- Zašto je 8B model koji nadmašuje GPT-4.1 značajan?
- Pokazuje da otvoreni manji modeli mogu preuzeti ulogu evaluatora u RLHF pipeline-ima, što smanjuje ovisnost o frontier API-jima i troškove treniranja.
- Što su discriminative rubrics u kontekstu EvoLM-a?
- Eksplicitne kriterijske skale koje strukturiraju inherentnu sposobnost vrednovanja modela u oblik koji se može iterativno trenirati zajedno s policy-jem.
Izvori
Povezane vijesti
Google: Gemini API File Search proširen na multimodalnu pretragu slika i teksta
Microsoft Research: DroidSpeak dijeli KV cache između fine-tuned LLM varijanti za 4× veći throughput
OpenAI: GPT-5.5 Instant postaje novi default model u ChatGPT-u s manje halucinacija