ArXiv SUPERNOVA: reinforcement learning na prirodnim instrukcijama poboljšava razmišljanje za 52.8%
Zašto je bitno
Novi rad SUPERNOVA pokazuje da sistematska kuracija postojećih instruction-tuning datasetova može značajno poboljšati reasoning u LLM-ovima. Modeli trenirani na SUPERNOVA postižu do 52.8% relativno poboljšanje na BBEH benchmarku.
Iskorištavanje postojećih podataka za bolji reasoning
Istraživači su objavili SUPERNOVA — okvir koji pokazuje da postojeći instruction-tuning datasetovi sadrže “bogate obrasce razmišljanja” koji se mogu sustavno adaptirati za reinforcement learning. Rezultat: relativno poboljšanje od do 52.8% na BBEH benchmarku u usporedbi s jakim baselineima poput Qwen3.5.
Zašto je ovo važno?
Trenutno postoje dva pristupa poboljšanju reasoninga u LLM-ovima:
- Synthetic data generation — generiraj nove primjere i treniraj na njima (skupo)
- Human-curated data — eksperti pišu nove primjere (skupo i sporo)
SUPERNOVA pokazuje treći put: iskoristi data koji već imaš (instruction-tuning sets) ali ga sustavno pripremi za RL s verifiabilnim nagradama. To je značajno jeftinije i brže.
Metodologija
Autori su proveli više od 100 kontroliranih eksperimenata analizirajući tri ključna faktora:
- Source task selection — koji zadaci najbolje prenose znanje na ciljanu domenu
- Task mixing strategies — optimalne kombinacije podataka za treniranje
- Synthetic interventions — ciljane modifikacije za poboljšanje kvalitete podataka
Ključni nalaz: selekcija zadataka po individualnim ciljnim performansama nadmašuje strategije koje koriste prosjek. Drugim riječima, ne idi za “balansiranim” pristupom — odaberi zadatke koji konkretno pomažu tvoj cilj.
Performansa
Testiranje je provedeno na više izazovnih benchmarkova:
- BBEH — kompleksno višekoračno razmišljanje
- Zebralogic — logičko zaključivanje
- MMLU-Pro — proširena znanja kroz domene
Kod i podaci su javno dostupni na GitHubu, što znači da druge istraživačke grupe mogu reproducirati i graditi na rezultatima.
Šire implikacije
Trend “iskoristi postojeće, ne stvaraj novo” je važan za demokratizaciju AI istraživanja. Ne treba ti milijardni budžet OpenAI-ja ili Anthropica — možeš značajno poboljšati reasoning koristeći datasetove koji već postoje na HuggingFaceu i drugim platformama.
Za male AI labove i open-source projekte, SUPERNOVA pristup mogao bi biti ono što ih približava performansama frontier modela.
Povezane vijesti
ArXiv: Process Reward Agents — real-time feedback poboljšava AI zaključivanje u medicini bez retraininga
ArXiv PRA: 4B model postiže 80.8% na medicinskom benchmarku — novi SOTA za malu skalu
ArXiv SPPO: PPO na razini sekvence rješava problem kreditne dodjele u dugim lancima razmišljanja