🤖 24 AI
🟡 🤖 Modeli subota, 11. travnja 2026. · 2 min čitanja

ArXiv SUPERNOVA: reinforcement learning na prirodnim instrukcijama poboljšava razmišljanje za 52.8%

Zašto je bitno

Novi rad SUPERNOVA pokazuje da sistematska kuracija postojećih instruction-tuning datasetova može značajno poboljšati reasoning u LLM-ovima. Modeli trenirani na SUPERNOVA postižu do 52.8% relativno poboljšanje na BBEH benchmarku.

Iskorištavanje postojećih podataka za bolji reasoning

Istraživači su objavili SUPERNOVA — okvir koji pokazuje da postojeći instruction-tuning datasetovi sadrže “bogate obrasce razmišljanja” koji se mogu sustavno adaptirati za reinforcement learning. Rezultat: relativno poboljšanje od do 52.8% na BBEH benchmarku u usporedbi s jakim baselineima poput Qwen3.5.

Zašto je ovo važno?

Trenutno postoje dva pristupa poboljšanju reasoninga u LLM-ovima:

  1. Synthetic data generation — generiraj nove primjere i treniraj na njima (skupo)
  2. Human-curated data — eksperti pišu nove primjere (skupo i sporo)

SUPERNOVA pokazuje treći put: iskoristi data koji već imaš (instruction-tuning sets) ali ga sustavno pripremi za RL s verifiabilnim nagradama. To je značajno jeftinije i brže.

Metodologija

Autori su proveli više od 100 kontroliranih eksperimenata analizirajući tri ključna faktora:

  1. Source task selection — koji zadaci najbolje prenose znanje na ciljanu domenu
  2. Task mixing strategies — optimalne kombinacije podataka za treniranje
  3. Synthetic interventions — ciljane modifikacije za poboljšanje kvalitete podataka

Ključni nalaz: selekcija zadataka po individualnim ciljnim performansama nadmašuje strategije koje koriste prosjek. Drugim riječima, ne idi za “balansiranim” pristupom — odaberi zadatke koji konkretno pomažu tvoj cilj.

Performansa

Testiranje je provedeno na više izazovnih benchmarkova:

  • BBEH — kompleksno višekoračno razmišljanje
  • Zebralogic — logičko zaključivanje
  • MMLU-Pro — proširena znanja kroz domene

Kod i podaci su javno dostupni na GitHubu, što znači da druge istraživačke grupe mogu reproducirati i graditi na rezultatima.

Šire implikacije

Trend “iskoristi postojeće, ne stvaraj novo” je važan za demokratizaciju AI istraživanja. Ne treba ti milijardni budžet OpenAI-ja ili Anthropica — možeš značajno poboljšati reasoning koristeći datasetove koji već postoje na HuggingFaceu i drugim platformama.

Za male AI labove i open-source projekte, SUPERNOVA pristup mogao bi biti ono što ih približava performansama frontier modela.

🤖 Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.