Infrastruktura
Test-time compute (compute pri inferenciji)
Trošenje dodatnog računalnog vremena tijekom inferencije — dulje razmišljanje prije odgovora — kako bi se povećala točnost; temelj reasoning modela.
Test-time compute (test-time compute) je pristup u kojem model troši više računalnog vremena tijekom inferencije — generirajući dulji, promišljeniji niz međukoraka prije konačnog odgovora — kako bi se poboljšala kvaliteta rješenja. Naziva se i inference-time scaling ili test-time scaling.
Klasično skaliranje povećavalo je model i podatke tijekom treniranja. Test-time compute otvara drugu os: pri istom istreniranom modelu dopušta se dulje „razmišljanje” pri svakom upitu. To se izvodi kroz dulji lanac razmišljanja, generiranje više kandidata uz odabir najboljeg (self-consistency, verifikacija) ili pretragu stabla rješenja. Empirijski, više potrošenog compute-a često diže točnost na teškim problemima — matematici, kodu, logici.
Paradigma je ušla u mainstream s OpenAI o1 (2024.) i temelj je današnjih reasoning modela. Kompromis je cijena i latencija: odgovor može trošiti višestruko više tokena i sekunde do minute. Tijekom 2025.–2026. dobici se zasićuju nakon određene točke, pa laboratoriji rade na adaptivnoj alokaciji compute-a prema težini zadatka.