ArXiv SUPERNOVA: reinforcement learning na prirodnim instrukcijama poboljšava razmišljanje za 52.8%

Iskorištavanje postojećih podataka za bolji reasoning

Istraživači su objavili SUPERNOVA — okvir koji pokazuje da postojeći instruction-tuning datasetovi sadrže “bogate obrasce razmišljanja” koji se mogu sustavno adaptirati za reinforcement learning. Rezultat: relativno poboljšanje od do 52.8% na BBEH benchmarku u usporedbi s jakim baselineima poput Qwen3.5.

Zašto je ovo važno?

Trenutno postoje dva pristupa poboljšanju reasoninga u LLM-ovima:

Synthetic data generation — generiraj nove primjere i treniraj na njima (skupo)
Human-curated data — eksperti pišu nove primjere (skupo i sporo)

SUPERNOVA pokazuje treći put: iskoristi data koji već imaš (instruction-tuning sets) ali ga sustavno pripremi za RL s verifiabilnim nagradama. To je značajno jeftinije i brže.

Metodologija

Autori su proveli više od 100 kontroliranih eksperimenata analizirajući tri ključna faktora:

Source task selection — koji zadaci najbolje prenose znanje na ciljanu domenu
Task mixing strategies — optimalne kombinacije podataka za treniranje
Synthetic interventions — ciljane modifikacije za poboljšanje kvalitete podataka

Ključni nalaz: selekcija zadataka po individualnim ciljnim performansama nadmašuje strategije koje koriste prosjek. Drugim riječima, ne idi za “balansiranim” pristupom — odaberi zadatke koji konkretno pomažu tvoj cilj.

Performansa

Testiranje je provedeno na više izazovnih benchmarkova:

BBEH — kompleksno višekoračno razmišljanje
Zebralogic — logičko zaključivanje
MMLU-Pro — proširena znanja kroz domene

Kod i podaci su javno dostupni na GitHubu, što znači da druge istraživačke grupe mogu reproducirati i graditi na rezultatima.

Šire implikacije

Trend “iskoristi postojeće, ne stvaraj novo” je važan za demokratizaciju AI istraživanja. Ne treba ti milijardni budžet OpenAI-ja ili Anthropica — možeš značajno poboljšati reasoning koristeći datasetove koji već postoje na HuggingFaceu i drugim platformama.

Za male AI labove i open-source projekte, SUPERNOVA pristup mogao bi biti ono što ih približava performansama frontier modela.