vLLM: Open-Source-Inferenz-Engine belegt ersten Platz auf der Artificial-Analysis-Bestenliste
vLLM ist eine Open-Source-Inferenz-Engine, die durch aggressives Kernel-Fusion (33→10 Launches pro Schicht, 1,28-facher Speedup), ein benutzerdefiniertes EAGLE3-Draft-Modell für Speculative Decoding und Optimierungen des linearen Attention-Pfads den ersten Platz auf der Artificial-Analysis-Bestenliste für drei Frontier-Modelle — DeepSeek V3.2, MiniMax-M2.5 und Qwen 3.5 397B — belegt hat.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
vLLM, die Open-Source-Inferenz-Engine, hat durch gezielte Optimierungen den ersten Platz auf der Artificial-Analysis-Bestenliste für drei Frontier-Modelle belegt. Das Entwicklungsteam bestätigte, dass vLLM jetzt bei DeepSeek V3.2, MiniMax-M2.5 und Qwen 3.5 397B führt — das Ergebnis von drei unterschiedlichen Ansätzen, jeweils einem pro Modell.
DeepSeek V3.2: aggressives Kernel Fusion
Bei DeepSeek V3.2 erreicht vLLM 230 Token pro Sekunde Output-Durchsatz — wie in der Ankündigung steht, „mehr als das 4-fache dessen, was die meisten Inferenz-Anbieter melden”. Der Schlüssel ist aggressives Kernel Fusion, das Normalisierungs-, Rotary-Embedding- und Quantisierungsoperationen zusammenführt. Die Anzahl der GPU-Kernel-Launches wurde von ca. 33 auf nur 10 pro Schicht reduziert, was den Startaufwand bei kleinen Batch-Größen eliminiert und einen 1,28-fachen Speedup bei Batch-Größe 1 liefert.
MiniMax-M2.5: benutzerdefiniertes EAGLE3-Draft-Modell
Für MiniMax-M2.5 erreicht vLLM 326 Token/s bei Concurrency 1 mit benutzerdefiniertem EAGLE3 Speculative Decoding. EAGLE3 ist eine Technik, bei der ein kleineres Draft-Modell mehrere Token im Voraus vorhersagt, die das große Modell dann in einem einzigen Durchlauf verifiziert. vLLM-Ingenieure trainierten ein spezialisiertes Draft-Modell über TorchSpec und ermöglichten ihm, auf den tatsächlichen Hidden States zu lernen, die vLLM produziert — anstatt auf generischen Datensätzen.
Qwen 3.5 397B: Attention-Pfad-Fusion
Qwen 3.5 397B belegt den ersten Platz unter allen 12 gemessenen Anbietern mit Sub-Sekunden-TTFT (Time-to-First-Token) bei langen Prompts. Die Optimierungen zielten auf die spezifische Linear-Attention-Architektur des Modells und seine Normalisierungsmuster ab und liefern „bis zu 6,69 Anfragen/s bei Concurrency 256” im Vergleich zum Ausgangswert.
Was das für das Open-Source-Ökosystem bedeutet
Das Ergebnis ist bedeutsam: vLLM, das jeder auf eigener Hardware betreiben kann, führt Produktions-Benchmarks für drei Frontier-Modelle an. Für Organisationen, die selbst gehostete Inferenz betreiben — aus Gründen des Datenschutzes, der Datensouveränität oder der Kostenvorhersagbarkeit — ist dies der Beweis, dass ein offener Stack keine strukturelle Leistungseinbuße mehr gegenüber proprietären Diensten hinnehmen muss.
Häufig gestellte Fragen
- Was ist Kernel Fusion und wie viel bringt es?
- Kernel Fusion ist eine Technik, die mehrere kleine GPU-Operationen in einen einzigen größeren Kernel-Launch zusammenfasst und dadurch den Startaufwand reduziert. Bei DeepSeek V3.2 reduzierte vLLM die Anzahl der Launches von ca. 33 auf nur 10 pro Schicht, indem Normalisierung, Rotary Embedding und Quantisierung zusammengeführt wurden — das ergibt einen 1,28-fachen Speedup bei Batch-Größe 1.
- Was ist EAGLE3 und warum ist es für MiniMax-M2.5 wichtig?
- EAGLE3 ist ein Speculative-Decoding-Ansatz, bei dem ein kleineres Draft-Modell Token vorhersagt, die das Hauptmodell dann verifiziert. Das vLLM-Team trainierte ein benutzerdefiniertes EAGLE3-Draft-Modell mit TorchSpec und ließ es auf den tatsächlichen Hidden States lernen, die vLLM produziert — das ergibt 326 Token/s bei Concurrency 1 auf MiniMax-M2.5.
- Was bedeutet es, dass Open-Source proprietäre Inferenz erreichen kann?
- Die Artificial-Analysis-Bestenliste misst die Produktionsleistung von 12 Inferenz-Anbietern. Dass vLLM — das jeder auf eigener Hardware betreiben kann — bei drei Frontier-Modellen an erster Stelle steht, zeigt, dass der Open-Source-Stack keine strukturelle Leistungseinbuße mehr hinnehmen muss.
Verwandte Nachrichten
arXiv:2605.21006: Off-the-shelf-Persona-Vektoren erreichen 68-98 % der Wirksamkeit von gezieltem Sycophancy-Steering in LLM-Modellen
Black Forest Labs: FLUX Erase übertrifft GPT Image-2 (68,5 %) und Finegrain (63,2 %) bei der promptlosen Objektentfernung
arXiv:2605.19762: ICML-2026-Paper behauptet, Code verbessert nicht das Mathe-Reasoning von LLMs