PyTorch TokenSpeed-Kernel: 3,6× schnellere LLM-Inferenz

TokenSpeed-Kernel ist ein quelloffenes dreischichtiges Kernel-Subsystem, das LLM-Inferenz auf NVIDIA- und AMD-GPUs ohne Code-Umschreiben um bis zu 3,6-fach beschleunigt und bereits in das vLLM-Inferencing-Framework integriert ist.

Was ist TokenSpeed-Kernel und warum ist er wichtig?

TokenSpeed-Kernel ist ein quelloffenes dreischichtiges Kernel-Subsystem — eine Sammlung niedrigstufiger GPU-Programme, die die Berechnung von LLM-Modellen direkt steuern — das so konzipiert ist, auf NVIDIA- und AMD-Silizium ohne Code-Neuschreiben gleich gut zu funktionieren. Das PyTorch-Team veröffentlichte es als Antwort auf ein langjähriges Problem: Hochleistungs-Kernel waren an einen Chip-Hersteller gebunden, was die Portabilität von LLM-Systemen auf alternative Hardware erschwerte.

Wie groß ist der Geschwindigkeitszuwachs in der Praxis?

Messungen am GPT-OSS 120B-Modell auf AMD MI355X-GPU zeigen dramatische Verbesserungen in jeder Phase der Inferenz im Vergleich zu Triton — dem bisherigen Standard-PyTorch-Kernel-Framework:

Attention Prefill (Verarbeitungsphase des Eingabetexts): 1,4–2,3× schneller als Triton
MoE Decode — MoE (Mixture of Experts) ist eine Architektur, bei der das Modell nur einen Teil seiner Parameter pro Token aktiviert — 1,7–2,1× schneller
End-to-End-Durchsatz (Gesamtdurchsatz des Systems): 1,6–3,6× höher

Die obere Grenze der 3,6-fachen Beschleunigung ist keine marginale Optimierung — das bedeutet, dass dieselbe Hardware deutlich mehr Nutzeranfragen pro Stunde bedienen oder Antworten mehrfach schneller generieren kann.

Wie funktioniert der dreischichtige Ansatz?

TokenSpeed-Kernel teilt den Code in drei Schichten auf: eine gemeinsame, hardwareunabhängige Schnittstelle, ein NVIDIA-spezifisches Backend und ein AMD-spezifisches Backend. Wenn ein Entwickler eine Attention- oder MoE-Operation aufruft, wählt das System automatisch das korrekte Backend für die erkannte GPU aus — ohne zusätzlichen Code auf Nutzerseite.

Der Plugin-Mechanismus @register_kernel ermöglicht Unternehmen oder Forschern zudem, Unterstützung für eigene, nicht standardmäßige Siliziumarchitekturen in dasselbe System zu integrieren.

Integration und Verfügbarkeit

TokenSpeed-Kernel ist als Standard-Python-Paket verfügbar (pip install) und bereits über Pull-Request PR #46742 in vLLM integriert — vLLM ist eines der am weitesten verbreiteten Open-Source-LLM-Serving-Frameworks, das von Hunderten von Produktionssystemen genutzt wird. vLLM-Nutzer profitieren automatisch von der Beschleunigung ohne Änderung der eigenen Konfiguration.

Das größere Bild: das Ende des Chip-Monopols?

Bisher waren Hochleistungs-Kernel praktisch exklusiv im NVIDIA-Ökosystem verfügbar, da sie für die CUDA-Plattform geschrieben wurden, die auf AMD-Hardware nicht läuft. TokenSpeed-Kernel ändert diese Dynamik: Inferenz-Systeme können jetzt transparent zwischen NVIDIA- und AMD-GPUs mit identischem Code wechseln, was den Wettbewerb auf dem KI-Beschleunigermarkt erhöht und das Risiko der Abhängigkeit von einem einzigen Lieferanten für LLM-Produktionsinfrastrukturen verringert.

Häufig gestellte Fragen

Was ist ein Kernel im Kontext der GPU-Inferenz?

Ein GPU-Kernel ist ein Niedrigstufenprogramm, das auf dem Grafikprozessor läuft und direkt die Matrix- und Attention-Berechnungen steuert — die Kernel-Geschwindigkeit bestimmt direkt, wie viele Token das Modell pro Sekunde generiert.

Funktioniert TokenSpeed-Kernel nur mit NVIDIA-GPUs?

Nein — TokenSpeed-Kernel ist für einen Multi-Silicon-Ansatz mit separaten Backends für NVIDIA- und AMD-GPUs ausgelegt; das Plugin-System (@register_kernel) ermöglicht das Hinzufügen von Unterstützung für neue Architekturen ohne Änderung des gemeinsamen Codes.

PyTorch: TokenSpeed-Kernel — portable Hochleistungs-Kernel für Multi-Silicon-LLM-Inferenz