vLLM Nr. 1 bei Artificial Analysis: Open-Source-Dominanz

vLLM ist eine Open-Source-Inferenz-Engine, die durch aggressives Kernel-Fusion (33→10 Launches pro Schicht, 1,28-facher Speedup), ein benutzerdefiniertes EAGLE3-Draft-Modell für Speculative Decoding und Optimierungen des linearen Attention-Pfads den ersten Platz auf der Artificial-Analysis-Bestenliste für drei Frontier-Modelle — DeepSeek V3.2, MiniMax-M2.5 und Qwen 3.5 397B — belegt hat.

vLLM, die Open-Source-Inferenz-Engine, hat durch gezielte Optimierungen den ersten Platz auf der Artificial-Analysis-Bestenliste für drei Frontier-Modelle belegt. Das Entwicklungsteam bestätigte, dass vLLM jetzt bei DeepSeek V3.2, MiniMax-M2.5 und Qwen 3.5 397B führt — das Ergebnis von drei unterschiedlichen Ansätzen, jeweils einem pro Modell.

DeepSeek V3.2: aggressives Kernel Fusion

Bei DeepSeek V3.2 erreicht vLLM 230 Token pro Sekunde Output-Durchsatz — wie in der Ankündigung steht, „mehr als das 4-fache dessen, was die meisten Inferenz-Anbieter melden”. Der Schlüssel ist aggressives Kernel Fusion, das Normalisierungs-, Rotary-Embedding- und Quantisierungsoperationen zusammenführt. Die Anzahl der GPU-Kernel-Launches wurde von ca. 33 auf nur 10 pro Schicht reduziert, was den Startaufwand bei kleinen Batch-Größen eliminiert und einen 1,28-fachen Speedup bei Batch-Größe 1 liefert.

MiniMax-M2.5: benutzerdefiniertes EAGLE3-Draft-Modell

Für MiniMax-M2.5 erreicht vLLM 326 Token/s bei Concurrency 1 mit benutzerdefiniertem EAGLE3 Speculative Decoding. EAGLE3 ist eine Technik, bei der ein kleineres Draft-Modell mehrere Token im Voraus vorhersagt, die das große Modell dann in einem einzigen Durchlauf verifiziert. vLLM-Ingenieure trainierten ein spezialisiertes Draft-Modell über TorchSpec und ermöglichten ihm, auf den tatsächlichen Hidden States zu lernen, die vLLM produziert — anstatt auf generischen Datensätzen.

Qwen 3.5 397B: Attention-Pfad-Fusion

Qwen 3.5 397B belegt den ersten Platz unter allen 12 gemessenen Anbietern mit Sub-Sekunden-TTFT (Time-to-First-Token) bei langen Prompts. Die Optimierungen zielten auf die spezifische Linear-Attention-Architektur des Modells und seine Normalisierungsmuster ab und liefern „bis zu 6,69 Anfragen/s bei Concurrency 256” im Vergleich zum Ausgangswert.

Was das für das Open-Source-Ökosystem bedeutet

Das Ergebnis ist bedeutsam: vLLM, das jeder auf eigener Hardware betreiben kann, führt Produktions-Benchmarks für drei Frontier-Modelle an. Für Organisationen, die selbst gehostete Inferenz betreiben — aus Gründen des Datenschutzes, der Datensouveränität oder der Kostenvorhersagbarkeit — ist dies der Beweis, dass ein offener Stack keine strukturelle Leistungseinbuße mehr gegenüber proprietären Diensten hinnehmen muss.

Häufig gestellte Fragen

Was ist Kernel Fusion und wie viel bringt es?

Kernel Fusion ist eine Technik, die mehrere kleine GPU-Operationen in einen einzigen größeren Kernel-Launch zusammenfasst und dadurch den Startaufwand reduziert. Bei DeepSeek V3.2 reduzierte vLLM die Anzahl der Launches von ca. 33 auf nur 10 pro Schicht, indem Normalisierung, Rotary Embedding und Quantisierung zusammengeführt wurden — das ergibt einen 1,28-fachen Speedup bei Batch-Größe 1.

Was ist EAGLE3 und warum ist es für MiniMax-M2.5 wichtig?

EAGLE3 ist ein Speculative-Decoding-Ansatz, bei dem ein kleineres Draft-Modell Token vorhersagt, die das Hauptmodell dann verifiziert. Das vLLM-Team trainierte ein benutzerdefiniertes EAGLE3-Draft-Modell mit TorchSpec und ließ es auf den tatsächlichen Hidden States lernen, die vLLM produziert — das ergibt 326 Token/s bei Concurrency 1 auf MiniMax-M2.5.

Was bedeutet es, dass Open-Source proprietäre Inferenz erreichen kann?

Die Artificial-Analysis-Bestenliste misst die Produktionsleistung von 12 Inferenz-Anbietern. Dass vLLM — das jeder auf eigener Hardware betreiben kann — bei drei Frontier-Modellen an erster Stelle steht, zeigt, dass der Open-Source-Stack keine strukturelle Leistungseinbuße mehr hinnehmen muss.

vLLM: Open-Source-Inferenz-Engine belegt ersten Platz auf der Artificial-Analysis-Bestenliste

DeepSeek V3.2: aggressives Kernel Fusion

MiniMax-M2.5: benutzerdefiniertes EAGLE3-Draft-Modell

Qwen 3.5 397B: Attention-Pfad-Fusion

Was das für das Open-Source-Ökosystem bedeutet

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten