Zakoni skaliranja

Zakoni skaliranja (scaling laws) su empirijske potencijske (power-law) ovisnosti koje opisuju kako se gubitak (loss) modela glatko smanjuje s povećanjem triju veličina: broja parametara, količine podataka za trening i uložene računalne snage. Kaplan et al. (2020.) pokazali su da performanse velikih jezičnih modela prate predvidljive krivulje preko više redova veličine.

Tipičan oblik je L(N, D) = E + A·N^−α + B·D^−β, gdje N označava parametre, a D broj tokena. Ti zakoni omogućuju da se kvaliteta velikog modela procijeni iz manjih, jeftinih eksperimenata — prije nego što se potroši golem računalni budžet.

Hoffmann et al. (2022., “Chinchilla”) preinačili su pravilo: za zadani budžet model i podatke treba skalirati u jednakim omjerima, jer su raniji modeli bili podtrenirani. Zakoni skaliranja danas su temelj planiranja temeljnih modela, a rasprava 2025.-2026. pomiče se prema najnaprednijim modelima i skaliranju računanja tijekom zaključivanja (test-time compute).

Izvori

Vidi također