Temelji
Zakoni skaliranja
Empirijske potencijske ovisnosti koje povezuju veličinu modela, količinu podataka i računalnu snagu s performansama; temelj za planiranje treninga velikih modela.
Zakoni skaliranja (scaling laws) su empirijske potencijske (power-law) ovisnosti koje opisuju kako se gubitak (loss) modela glatko smanjuje s povećanjem triju veličina: broja parametara, količine podataka za trening i uložene računalne snage. Kaplan et al. (2020.) pokazali su da performanse velikih jezičnih modela prate predvidljive krivulje preko više redova veličine.
Tipičan oblik je L(N, D) = E + A·N^−α + B·D^−β, gdje N označava parametre, a D broj tokena. Ti zakoni omogućuju da se kvaliteta velikog modela procijeni iz manjih, jeftinih eksperimenata — prije nego što se potroši golem računalni budžet.
Hoffmann et al. (2022., “Chinchilla”) preinačili su pravilo: za zadani budžet model i podatke treba skalirati u jednakim omjerima, jer su raniji modeli bili podtrenirani. Zakoni skaliranja danas su temelj planiranja temeljnih modela, a rasprava 2025.-2026. pomiče se prema najnaprednijim modelima i skaliranju računanja tijekom zaključivanja (test-time compute).