PyTorch/SGLang: DeepSeek-V4 Pro na NVIDIA GB300 — 5× veći throughput uz isti interaktivitet
PyTorch tim i SGLang su od travnja do lipnja 2026. povećali throughput posluživanja DeepSeek-V4 Pro modela na NVIDIA GB300 arhitekturi s oko 2.200 na više od 11.200 tokena po sekundi po GPU-u — peterostruko poboljšanje bez gubitka interaktiviteta za krajnjeg korisnika.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Optimizacija posluživanja, ne novi model
PyTorch tim u suradnji s razvojnim timom SGLang okvira objavio je detaljan izvještaj o optimizaciji posluživanja modela DeepSeek-V4 Pro na NVIDIA GB300 arhitekturi (Blackwell Ultra). Radi se o inženjerskom dostignuću u kategoriji inference infrastrukture — DeepSeek-V4 Pro ostaje isti model, ali je način na koji se servira radikalno poboljšan.
SGLang (Structured Generation Language) je otvoreni okvir za visoko-performantno posluživanje velikih jezičnih modela koji upravlja raspoređivanjem zahtjeva, upravljanjem KV predmemorijom i egzekucijom kernela.
Od 2.200 na 11.200 tokena po sekundi
U travnju 2026. (dan nultog pokretanja, tzv. „day-0”) sustav je ostvarivao oko 2.200 tokena po sekundi po GPU-u pri razini interaktiviteta od 50 tokena po sekundi po korisniku. Do lipnja 2026., zahvaljujući nizu poboljšanja, ista mjera dostigla je oko 11.200 tokena po sekundi po GPU-u — 5× povećanje propusnosti bez promjene standarda interaktiviteta.
Na aggregiranoj Blackwell Ultra konfiguraciji zabilježen je 2,85–2,91× porast, s vršnim vrijednostima iznad 6×.
Ključne tehničke inovacije
Rezultati su ostvareni kombinacijom nekoliko naprednih kernela i algoritamskih poboljšanja:
- MHP fuzija (MHC fusion) — spaja više operacija u jednu GPU instrukciju i smanjuje latenciju memorijskog pristupa
- KV Compression V2 — agresivnija kompresija ključ-vrijednost predmemorije smanjuje pritisak na GPU memorijsku propusnost
- W4A4 MegaMoE — kvantizacija težina i aktivacija na 4 bita za Mixture-of-Experts arhitekturu DeepSeek-V4 Proa, uz FP4 preciznost na GB300
MTP bugfix udvostručio učinkovitost spekulativnog dekodiranja
Multi-Token Prediction (MTP) — tehnika spekulativnog dekodiranja gdje model paralelno predlaže nekoliko tokena unaprijed i prihvaća one koji se poklapaju s konačnim izlazom — ima ključnu metriku nazvanu „speculative acceptance rate”. Viša stopa prihvaćanja znači manje odbačenih spekulacija i veću stvarnu brzinu generiranja.
Nakon ispravka greške koja je uzrokovala NaN vrijednosti, stopa prihvaćanja popravljena je s 0,57 na 0,70, što je samo po sebi značajno pridonijelo ukupnom poboljšanju od 5×. Usporedbe radi, bez MTP optimizacije sustav bi ostao znatno ispod lipanjskih vrijednosti čak i uz iste kernele.
Praktični značaj
Za pružatelje cloud AI usluga, peterostruki rast throughputa na istom hardveru izravno smanjuje trošak po generiranome tokenu ili omogućuje peterostruko više istovremenih korisnika bez dodatnih investicija u GPU infrastrukturu.
Česta pitanja
- Što je throughput i zašto je važan za AI posluživanje?
- Throughput (propusnost) mjeri koliko tokena model može generirati u jednoj sekundi po GPU-u — viši throughput znači da isti hardver može istovremeno usluživati više korisnika uz niže troškove.
- Što je Multi-Token Prediction i kako pomaže?
- MTP (Multi-Token Prediction) je tehnika spekulativnog dekodiranja gdje model u jednom koraku predviđa nekoliko tokena unaprijed; poboljšanjem stope prihvaćanja s 0,57 na 0,70 (nakon NaN bugfixa) dodatno se ubrzava generiranje.
Povezane vijesti
arXiv:2606.23181: DART — bez treninga do adaptivnog mišljenja u hibridnim reasoning modelima
Mistral: OCR 4 — strukturirana ekstrakcija dokumenata s bounding boxovima u 170 jezika
arXiv:2606.20560: DiffusionGemma jednako čitljiv kao Gemma 4 — praznina od 28,6× srušena na 1,1×