vLLM: Open-Source-Inferenz-Engine belegt ersten Platz auf der Artificial-Analysis-Bestenliste
vLLM ist eine Open-Source-Inferenz-Engine, die durch aggressives Kernel-Fusion (33→10 Launches pro Schicht, 1,28-facher Speedup), ein benutzerdefiniertes EAGLE3-Draft-Modell für Speculative Decoding und Optimierungen des linearen Attention-Pfads den ersten Platz auf der Artificial-Analysis-Bestenliste für drei Frontier-Modelle — DeepSeek V3.2, MiniMax-M2.5 und Qwen 3.5 397B — belegt hat.