arXiv:2605.06638: ScaleLogic — RL power law u dubini

ScaleLogic je sintetički okvir koji pokazuje da reinforcement learning compute potreban za long-horizon rezoniranje slijedi zakon potencije s dubinom: T ∝ D^γ (R² > 0,99). Eksponent γ se kreće od 1,04 do 2,60 ovisno o izražajnosti logike, a izražajniji trening daje do +10,66 točaka boljih downstream rezultata.

Tianle Wang, Zhaoyang Wang, Guangchen Lan i suradnici objavili su 7. svibnja na arXivu studiju ScaleLogic — sintetički okvir koji sustavno otkriva kako reinforcement learning oblikuje dugoročno (long-horizon) rezoniranje velikih jezičnih modela.

Kako ScaleLogic kontrolira eksperiment?

ScaleLogic je generator zadataka logičkog rezoniranja koji omogućuje neovisnu kontrolu dvije osi: dubine rezoniranja (broj koraka u dokazu) i logičke izražajnosti (jednostavna implikacija, propozicijska logika, logika prvog reda s konjunkcijom, disjunkcijom, negacijom i kvantifikatorima). To je rijetkost — većina benchmarkova mijenja obje varijable istovremeno pa su nalazi nečitljivi.

Kontroliranjem osi autori izoliraju utjecaj svake na potrebnu količinu RL treninga.

Što je glavni kvantitativni nalaz?

Trening compute slijedi power law u dubini rezoniranja:

T ∝ D^γ, gdje je R² > 0,99

Eksponent γ raste monotono s izražajnošću logike, od 1,04 za najjednostavnije sustave do 2,60 za logiku prvog reda. Drugim riječima, dvostruko duži zadaci u izražajnijim logikama zahtijevaju do 6 puta više RL compute-a — relacija je predvidljiva i replicira se kroz različite RL metode.

Što ovo mijenja u praksi treniranja?

Najpraktičniji nalaz: modeli trenirani na izražajnijim sintetičkim postavkama prenose znanje bolje od 10,66 točaka na downstream benchmarkovima i postižu veću učinkovitost transfer learninga, čak i kad je ukupna količina treninga jednaka. Curriculum learning — trening od jednostavnih prema složenijim logikama — dodatno poboljšava skalirajuću učinkovitost.

Implikacija je jasna: kvaliteta sintetičkih podataka za RL je polugu jednako moćnija kao i sirov compute. Ono “na čemu” model trenira oblikuje njegovu sposobnost rezoniranja jednako koliko i to “koliko” trenira.

Česta pitanja

Što je ScaleLogic?

ScaleLogic je sintetičko okruženje za logičko rezoniranje koje omogućuje neovisno kontroliranje dubine zadatka (proof horizon) i izražajnosti logike (od jednostavne implikacije do FOL-a s kvantifikatorima).

Što znači power law u dubini?

T ∝ D^γ znači da potreban RL compute T raste prema potenciji dubine zadatka D. Eksponent γ ide od 1,04 (jednostavne logike) do 2,60 (izražajne logike) — duži zadaci zahtijevaju nelinearno više resursa.

Zašto je izražajnost logike ključna?

Izražajnije logičke postavke daju modele koji bolje prenose znanje na nove zadatke (do +10,66 točaka) i učinkovitije koriste compute u transfer learningu. Što model trenira jednako je važno koliko i koliko trenira.

arXiv:2605.06638: ScaleLogic — RL compute slijedi power law u dubini rezoniranja

Kako ScaleLogic kontrolira eksperiment?

Što je glavni kvantitativni nalaz?

Što ovo mijenja u praksi treniranja?

Česta pitanja

Izvori

Povezane vijesti