Koliko je NVIDIA smanjila trošak tokena za DeepSeek V4?

NVIDIA je kroz naslagane softverske optimizacije na Blackwell hardveru smanjila trošak tokena za DeepSeek V4 do pet puta unutar jednog mjeseca, bez promjene samog modela.

Koje su ključne tehnike koje omogućuju 20× veći throughput?

Kombinacija disaggregated servinga, velike expert-paralelizacije preko NVLinka, NVFP4 preciznosti, multi-token predictiona, spekulativnog dekodiranja i preklapanja compute i komunikacije postiže do 20× veći throughput po GPU-u na Blackwellu.

NVIDIA Blackwell: 5× niži trošak tokena za DeepSeek V4

Q: Koji su realni rezultati partnera na produkcijskim sustavima?

Baseten postiže do 50% više tokena u sekundi uz TensorRT-LLM, Hippocratic AI bilježi 30% veći throughput uz latenciju ispod pola sekunde na DigitalOceanu, a DFlash spekulativno dekodiranje daje do 15× veći throughput.

NVIDIA objašnjava kako naslagane softverske optimizacije na Blackwell arhitekturi — od NVFP4 preciznosti do spekulativnog dekodiranja — postižu do 20× veći throughput i pet puta niži trošak tokena za DeepSeek V4 modele.

NVIDIA je objavila detaljan pregled softverskih optimizacija koje na Blackwell arhitekturi — konkretno GB300 NVL72 i GB200 NVL72 sustavima — postižu dramatično niže troškove inferencije. Centralni podatak: trošak tokena za DeepSeek V4 smanjen je pet puta unutar jednog mjeseca, isključivo kroz naslagane softverske poboljšanja, bez promjene samog modela.

Zašto softver, a ne samo hardver?

Blackwell je donio znatno veću raw compute snagu u odnosu na Hopper, ali sam hardver ne optimizira se automatski. Ključ je u tome što inferencijski stack mora iskoristiti sve razine sustava istovremeno — od preciznosti računanja i mrežne topologije do načina serviranja i generiranja tokena. NVIDIA opisuje pristup naslagavanja (stacking) optimizacija: svaka tehnika sama po sebi donosi poboljšanje, ali pravi efekt nastaje njihovom kombinacijom.

Četiri tehnike koje grade do 20× throughputa

Osnova su četiri tehnike koje zajedno postižu do 20× veći throughput po GPU-u:

Disaggregated serving razdvaja prefill i decode faze inferencije na zasebne hardverske resurse. Prefill faza, koja obrađuje ulazni prompt, i decode faza, koja generira tokene, imaju različite karakteristike iskorištenosti hardvera — njihovim razdvajanjem svaki resurs radi u optimalnom režimu.

Velika expert-paralelizacija preko NVLinka omogućuje MoE modelima poput DeepSeek V4 da rasporede eksperte kroz više GPU-a uz NVLink propusnost koja minimizira komunikacijski overhead. GB300 NVL72 i GB200 NVL72 sustavi imaju posebno visoku NVLink propusnost dizajniranu upravo za ovakve rasporedbe.

NVFP4 preciznost smanjuje memorijski footprint i povećava aritmetički intenzitet. Blackwell generacija uvodi hardversku podršku za FP4, što znači da se niska preciznost postiže bez emulacije — uz izravni hardverski throughput.

Multi-token prediction i spekulativno dekodiranje generiraju više tokena po prolasku kroz model, čime se amortizira fiksni overhead svakog koraka dekodiranja. DFlash implementacija spekulativnog dekodiranja postiže do 15× veći throughput u usporedbi s klasičnim dekodiranjem.

Uz to, NVIDIA naglašava tehnike preklapanja compute i komunikacije te kernel fusiona kao horizontalne optimizacije koje se primjenjuju kroz cijeli stack.

Realni rezultati s produkcije

Je li ovo potvrđeno u produkciji?

Da — NVIDIA navodi konkretne rezultate partnera koji ove optimizacije koriste u produkciji:

Baseten servira DeepSeek V4 Pro na Blackwellu i bilježi do 50% više tokena u sekundi uz TensorRT-LLM optimizacije, u usporedbi s prethodnom generacijom stacka.

Hippocratic AI, koji obrađuje 10 milijuna pacijentskih poziva, implementirao je optimizacije na DigitalOcean infrastrukturi i postigao 30% veći throughput uz latenciju ispod pola sekunde — što je kritično za real-time glasovne aplikacije.

DFlash spekulativno dekodiranje donosi do 15× poboljšanje throughputa za scenarije gdje se može predvidjeti distribucija izlaznih tokena.

Cognition koristi NVIDIA Dynamo inferencijski okvir za reinforcement learning workloadove gdje je latencija kritična za petlje učenja.

Alati koji grade ovaj stack

NVIDIA opisuje ekosustav alata koji zajedno čine inferencijski stack: TensorRT-LLM kao optimizirajući kompajler za serviranje, NVIDIA Dynamo kao inferencijski okvir za kompleksne višesustavne deploymente, te integracije s popularnim open-source rješenjima vLLM, SGLang i PyTorchom s nativnom CUDA podrškom.

Bitno je napomenuti da su svi navedeni partneri implementirali optimizacije nezavisno — što sugerira da metodologija nije specifična za jednog korisnika, već je reproducibilna kroz različite use-caseove, od zdravstva do razvoja softvera.

Kontekst: važnost 5× smanjenja troška

Trošak tokena izravno određuje ekonomiku LLM aplikacija. Pet puta niži trošak u roku jednog mjeseca znači da aplikacije koje su prethodno bile marginalno isplative postaju jasno profitabilne, ili da se isti budžet može utrošiti na pet puta više inferencije. Za modele frontier razmjera poput DeepSeek V4, koji imaju stotine milijardi parametara, svaki faktor smanjenja troška ima proporcionalno veći efekt na ukupne operativne troškove.

NVIDIA: softverski stack na Blackwellu smanjio trošak tokena DeepSeek V4 pet puta za mjesec dana

Zašto softver, a ne samo hardver?

Četiri tehnike koje grade do 20× throughputa

Realni rezultati s produkcije

Je li ovo potvrđeno u produkciji?

Alati koji grade ovaj stack

Kontekst: važnost 5× smanjenja troška

Česta pitanja

Izvori

Povezane vijesti