🟡 🤖 Modeli Objavljeno: · 2 min čitanja ·

PyTorch/SGLang: DeepSeek-V4 Pro na NVIDIA GB300 — 5× veći throughput uz isti interaktivitet

Editorial illustration: server rack s NVIDIA Blackwell GPU karticama i grafom koji prikazuje peterostruki rast throughputa

PyTorch tim i SGLang su od travnja do lipnja 2026. povećali throughput posluživanja DeepSeek-V4 Pro modela na NVIDIA GB300 arhitekturi s oko 2.200 na više od 11.200 tokena po sekundi po GPU-u — peterostruko poboljšanje bez gubitka interaktiviteta za krajnjeg korisnika.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Optimizacija posluživanja, ne novi model

PyTorch tim u suradnji s razvojnim timom SGLang okvira objavio je detaljan izvještaj o optimizaciji posluživanja modela DeepSeek-V4 Pro na NVIDIA GB300 arhitekturi (Blackwell Ultra). Radi se o inženjerskom dostignuću u kategoriji inference infrastrukture — DeepSeek-V4 Pro ostaje isti model, ali je način na koji se servira radikalno poboljšan.

SGLang (Structured Generation Language) je otvoreni okvir za visoko-performantno posluživanje velikih jezičnih modela koji upravlja raspoređivanjem zahtjeva, upravljanjem KV predmemorijom i egzekucijom kernela.

Od 2.200 na 11.200 tokena po sekundi

U travnju 2026. (dan nultog pokretanja, tzv. „day-0”) sustav je ostvarivao oko 2.200 tokena po sekundi po GPU-u pri razini interaktiviteta od 50 tokena po sekundi po korisniku. Do lipnja 2026., zahvaljujući nizu poboljšanja, ista mjera dostigla je oko 11.200 tokena po sekundi po GPU-u — 5× povećanje propusnosti bez promjene standarda interaktiviteta.

Na aggregiranoj Blackwell Ultra konfiguraciji zabilježen je 2,85–2,91× porast, s vršnim vrijednostima iznad 6×.

Ključne tehničke inovacije

Rezultati su ostvareni kombinacijom nekoliko naprednih kernela i algoritamskih poboljšanja:

  • MHP fuzija (MHC fusion) — spaja više operacija u jednu GPU instrukciju i smanjuje latenciju memorijskog pristupa
  • KV Compression V2 — agresivnija kompresija ključ-vrijednost predmemorije smanjuje pritisak na GPU memorijsku propusnost
  • W4A4 MegaMoEkvantizacija težina i aktivacija na 4 bita za Mixture-of-Experts arhitekturu DeepSeek-V4 Proa, uz FP4 preciznost na GB300

MTP bugfix udvostručio učinkovitost spekulativnog dekodiranja

Multi-Token Prediction (MTP) — tehnika spekulativnog dekodiranja gdje model paralelno predlaže nekoliko tokena unaprijed i prihvaća one koji se poklapaju s konačnim izlazom — ima ključnu metriku nazvanu „speculative acceptance rate”. Viša stopa prihvaćanja znači manje odbačenih spekulacija i veću stvarnu brzinu generiranja.

Nakon ispravka greške koja je uzrokovala NaN vrijednosti, stopa prihvaćanja popravljena je s 0,57 na 0,70, što je samo po sebi značajno pridonijelo ukupnom poboljšanju od 5×. Usporedbe radi, bez MTP optimizacije sustav bi ostao znatno ispod lipanjskih vrijednosti čak i uz iste kernele.

Praktični značaj

Za pružatelje cloud AI usluga, peterostruki rast throughputa na istom hardveru izravno smanjuje trošak po generiranome tokenu ili omogućuje peterostruko više istovremenih korisnika bez dodatnih investicija u GPU infrastrukturu.

Česta pitanja

Što je throughput i zašto je važan za AI posluživanje?
Throughput (propusnost) mjeri koliko tokena model može generirati u jednoj sekundi po GPU-u — viši throughput znači da isti hardver može istovremeno usluživati više korisnika uz niže troškove.
Što je Multi-Token Prediction i kako pomaže?
MTP (Multi-Token Prediction) je tehnika spekulativnog dekodiranja gdje model u jednom koraku predviđa nekoliko tokena unaprijed; poboljšanjem stope prihvaćanja s 0,57 na 0,70 (nakon NaN bugfixa) dodatno se ubrzava generiranje.