vLLM #1 na Artificial Analysis: open-source rušnja

vLLM je open-source inference engine koji je zauzeo prvo mjesto na Artificial Analysis ljestvici za tri frontier modela — DeepSeek V3.2, MiniMax-M2.5 i Qwen 3.5 397B — kroz agresivnu kernel fuziju (33→10 launches po sloju, 1.28× speedup), custom EAGLE3 draft model za speculative decoding i optimizacije linearne attention putanje.

vLLM, open-source inference engine, zauzeo je prvo mjesto na Artificial Analysis ljestvici za tri frontier modela kroz ciljane optimizacije. Razvojni tim potvrdio je da vLLM sada vodi za DeepSeek V3.2, MiniMax-M2.5 i Qwen 3.5 397B — što je rezultat tri različita pristupa po modelu.

DeepSeek V3.2: agresivna kernel fuzija

Na DeepSeek V3.2 vLLM postiže 230 tokena u sekundi output throughput-a — kako stoji u objavi, “više od 4× ono što većina inference davatelja prijavljuje”. Ključ je agresivna kernel fuzija koja spaja normalizaciju, rotary embedding i kvantizacijske operacije. Broj GPU kernel launchova smanjen je s približno 33 na svega 10 po sloju, što eliminira launch overhead pri malim batch veličinama i daje 1.28× speedup pri batch size 1.

MiniMax-M2.5: custom EAGLE3 draft model

Za MiniMax-M2.5 vLLM postiže 326 tokena/s pri concurrency 1 koristeći custom EAGLE3 speculative decoding. EAGLE3 je tehnika gdje manji “draft” model predviđa nekoliko tokena unaprijed, koje veliki model zatim verificira u jednom prolazu. vLLM inženjeri trenirali su specijalizirani draft model kroz TorchSpec, omogućujući mu učenje na stvarnim hidden states-ima koje vLLM proizvodi — umjesto na generičkim datasetima.

Qwen 3.5 397B: attention path fuzija

Qwen 3.5 397B prvi je među svih 12 mjerenih davatelja, s sub-sekundnim TTFT (time-to-first-token) na dugim promptovima. Optimizacije su rješavale specifičnu linear-attention arhitekturu modela i njegove normalizacijske obrasce, što daje “do 6.69 zahtjeva/s pri concurrency 256” u odnosu na baseline.

Što ovo znači za open-source ekosistem?

Rezultat je signalan: vLLM, koji bilo tko može pokrenuti na vlastitom hardveru, vodi produkcijske benchmark-e na tri frontier modela. Za organizacije koje vode self-hosted inference (privatnost, suverenitet podataka, cost predictability) ovo je dokaz da otvoreni stack više ne plaća strukturalnu cijenu u performansama spram vlasničkih servisa.

Česta pitanja

Što je kernel fusion i koliko donosi?

Kernel fusion je tehnika koja spaja više manjih GPU operacija u jedan veći launch kernel, čime se smanjuje overhead pokretanja. Na DeepSeek V3.2 vLLM je smanjio broj launchova s ~33 na ~10 po sloju spajajući normalizaciju, rotary embedding i kvantizaciju — rezultat je 1.28× speedup pri batch size 1.

Što je EAGLE3 i zašto je važan za MiniMax-M2.5?

EAGLE3 je speculative decoding pristup gdje manji 'draft' model predviđa tokene koje glavni model verificira. vLLM tim trenirao je custom EAGLE3 draft model koristeći TorchSpec, učeći ga na stvarnim hidden states-ima koje vLLM proizvodi — što daje 326 tokena/s pri concurrency 1 na MiniMax-M2.5.

Što znači da open-source može pratiti proprietary inference?

Artificial Analysis ljestvica mjeri produkcijske performanse 12 davatelja inference servisa. Da je vLLM, koji bilo tko može pokrenuti na vlastitom hardveru, prvi za tri frontier modela pokazuje da open-source stack više ne mora plaćati 'cijenu otvorenosti' u performansama.

vLLM: open-source inference engine zauzima prvo mjesto na Artificial Analysis ljestvici

DeepSeek V3.2: agresivna kernel fuzija

MiniMax-M2.5: custom EAGLE3 draft model

Qwen 3.5 397B: attention path fuzija

Što ovo znači za open-source ekosistem?

Česta pitanja

Izvori

Povezane vijesti