ArXiv SUPERNOVA: reinforcement learning na prirodnim instrukcijama poboljšava razmišljanje za 52.8%
Novi rad SUPERNOVA pokazuje da sistematska kuracija postojećih instruction-tuning datasetova može značajno poboljšati reasoning u LLM-ovima. Modeli trenirani na SUPERNOVA postižu do 52.8% relativno poboljšanje na BBEH benchmarku.