Infrastruktura

Inferencija (izvođenje modela)

Faza u kojoj već istreniran model generira izlaze za nove ulaze; troši GPU/TPU resurse i određuje cijenu, latenciju i propusnost AI usluga.

Inferencija je faza u životnom ciklusu modela u kojoj već istreniran model prima nove ulaze i generira izlaze — predviđanja, klasifikacije ili tekst. Suprotnost je treniranju, koje se događa jednom (ili u nekoliko iteracija) i koristi mnogo veći hardver tijekom tjedana ili mjeseci.

Za veliki jezični model inferencija znači generirati token po token, gdje svaki novi token zahtijeva prolazak kroz sve slojeve mreže. Ključne metrike:

  • Latencija prvog tokena (TTFT) — koliko brzo korisnik vidi prvi znak odgovora
  • Throughput (tokeni/s) — koliko korisnika i upita poslužitelj može opslužiti istovremeno
  • Trošak po milijun tokena — glavni driver poslovnog modela API providera

Inferencija dominira ukupnim trošak vlasništva modela tijekom njegovog vijeka — ako je trening košta milijune dolara jednom, inferencija na produkciji košta isto toliko mjesečno za uspješan proizvod. Zato je optimizacija inferencije aktivno polje: kvantizacija (FP8, INT4), speculative decoding, prefix caching, batching, KV-cache reuse.

Hardverski stack je raznolik: GPU-ovi NVIDIA H100 i B200 dominiraju u cloudu, ali AI akceleratori poput Google TPU-a, AWS Trainium/Inferentia i Groq LPU-a hvataju zalet zbog povoljnijeg odnosa cijene i performansi. Lokalna inferencija (Apple Silicon, NPU u laptopima, Ollama) dodatno mijenja ekonomiju.

Izvori

Vidi također