vLLM: open-source inference engine zauzima prvo mjesto na Artificial Analysis ljestvici
vLLM je open-source inference engine koji je zauzeo prvo mjesto na Artificial Analysis ljestvici za tri frontier modela — DeepSeek V3.2, MiniMax-M2.5 i Qwen 3.5 397B — kroz agresivnu kernel fuziju (33→10 launches po sloju, 1.28× speedup), custom EAGLE3 draft model za speculative decoding i optimizacije linearne attention putanje.