ArXiv SUPERNOVA: Reinforcement Learning auf natürlichen Anweisungen verbessert Reasoning um 52,8 %
Die neue Arbeit SUPERNOVA zeigt, dass die systematische Kuratierung bestehender Instruction-Tuning-Datensätze das Reasoning in LLMs erheblich verbessern kann. Auf SUPERNOVA trainierte Modelle erreichen eine relative Verbesserung von bis zu 52,8 % auf dem BBEH-Benchmark.