Inferencija (izvođenje modela)

Inferencija je faza u životnom ciklusu modela u kojoj već istreniran model prima nove ulaze i generira izlaze — predviđanja, klasifikacije ili tekst. Suprotnost je treniranju, koje se događa jednom (ili u nekoliko iteracija) i koristi mnogo veći hardver tijekom tjedana ili mjeseci.

Za veliki jezični model inferencija znači generirati token po token, gdje svaki novi token zahtijeva prolazak kroz sve slojeve mreže. Ključne metrike:

Latencija prvog tokena (TTFT) — koliko brzo korisnik vidi prvi znak odgovora
Throughput (tokeni/s) — koliko korisnika i upita poslužitelj može opslužiti istovremeno
Trošak po milijun tokena — glavni driver poslovnog modela API providera

Inferencija dominira ukupnim trošak vlasništva modela tijekom njegovog vijeka — ako je trening košta milijune dolara jednom, inferencija na produkciji košta isto toliko mjesečno za uspješan proizvod. Zato je optimizacija inferencije aktivno polje: kvantizacija (FP8, INT4), speculative decoding, prefix caching, batching, KV-cache reuse.

Hardverski stack je raznolik: GPU-ovi NVIDIA H100 i B200 dominiraju u cloudu, ali AI akceleratori poput Google TPU-a, AWS Trainium/Inferentia i Groq LPU-a hvataju zalet zbog povoljnijeg odnosa cijene i performansi. Lokalna inferencija (Apple Silicon, NPU u laptopima, Ollama) dodatno mijenja ekonomiju.

Izvori

Vidi također