PyTorch: TokenSpeed-Kernel — portable Hochleistungs-Kernel für Multi-Silicon-LLM-Inferenz
TokenSpeed-Kernel ist ein quelloffenes dreischichtiges Kernel-Subsystem, das LLM-Inferenz auf NVIDIA- und AMD-GPUs ohne Code-Umschreiben um bis zu 3,6-fach beschleunigt und bereits in das vLLM-Inferencing-Framework integriert ist.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Was ist TokenSpeed-Kernel und warum ist er wichtig?
TokenSpeed-Kernel ist ein quelloffenes dreischichtiges Kernel-Subsystem — eine Sammlung niedrigstufiger GPU-Programme, die die Berechnung von LLM-Modellen direkt steuern — das so konzipiert ist, auf NVIDIA- und AMD-Silizium ohne Code-Neuschreiben gleich gut zu funktionieren. Das PyTorch-Team veröffentlichte es als Antwort auf ein langjähriges Problem: Hochleistungs-Kernel waren an einen Chip-Hersteller gebunden, was die Portabilität von LLM-Systemen auf alternative Hardware erschwerte.
Wie groß ist der Geschwindigkeitszuwachs in der Praxis?
Messungen am GPT-OSS 120B-Modell auf AMD MI355X-GPU zeigen dramatische Verbesserungen in jeder Phase der Inferenz im Vergleich zu Triton — dem bisherigen Standard-PyTorch-Kernel-Framework:
- Attention Prefill (Verarbeitungsphase des Eingabetexts): 1,4–2,3× schneller als Triton
- MoE Decode — MoE (Mixture of Experts) ist eine Architektur, bei der das Modell nur einen Teil seiner Parameter pro Token aktiviert — 1,7–2,1× schneller
- End-to-End-Durchsatz (Gesamtdurchsatz des Systems): 1,6–3,6× höher
Die obere Grenze der 3,6-fachen Beschleunigung ist keine marginale Optimierung — das bedeutet, dass dieselbe Hardware deutlich mehr Nutzeranfragen pro Stunde bedienen oder Antworten mehrfach schneller generieren kann.
Wie funktioniert der dreischichtige Ansatz?
TokenSpeed-Kernel teilt den Code in drei Schichten auf: eine gemeinsame, hardwareunabhängige Schnittstelle, ein NVIDIA-spezifisches Backend und ein AMD-spezifisches Backend. Wenn ein Entwickler eine Attention- oder MoE-Operation aufruft, wählt das System automatisch das korrekte Backend für die erkannte GPU aus — ohne zusätzlichen Code auf Nutzerseite.
Der Plugin-Mechanismus @register_kernel ermöglicht Unternehmen oder Forschern zudem, Unterstützung für eigene, nicht standardmäßige Siliziumarchitekturen in dasselbe System zu integrieren.
Integration und Verfügbarkeit
TokenSpeed-Kernel ist als Standard-Python-Paket verfügbar (pip install) und bereits über Pull-Request PR #46742 in vLLM integriert — vLLM ist eines der am weitesten verbreiteten Open-Source-LLM-Serving-Frameworks, das von Hunderten von Produktionssystemen genutzt wird. vLLM-Nutzer profitieren automatisch von der Beschleunigung ohne Änderung der eigenen Konfiguration.
Das größere Bild: das Ende des Chip-Monopols?
Bisher waren Hochleistungs-Kernel praktisch exklusiv im NVIDIA-Ökosystem verfügbar, da sie für die CUDA-Plattform geschrieben wurden, die auf AMD-Hardware nicht läuft. TokenSpeed-Kernel ändert diese Dynamik: Inferenz-Systeme können jetzt transparent zwischen NVIDIA- und AMD-GPUs mit identischem Code wechseln, was den Wettbewerb auf dem KI-Beschleunigermarkt erhöht und das Risiko der Abhängigkeit von einem einzigen Lieferanten für LLM-Produktionsinfrastrukturen verringert.
Häufig gestellte Fragen
- Was ist ein Kernel im Kontext der GPU-Inferenz?
- Ein GPU-Kernel ist ein Niedrigstufenprogramm, das auf dem Grafikprozessor läuft und direkt die Matrix- und Attention-Berechnungen steuert — die Kernel-Geschwindigkeit bestimmt direkt, wie viele Token das Modell pro Sekunde generiert.
- Funktioniert TokenSpeed-Kernel nur mit NVIDIA-GPUs?
- Nein — TokenSpeed-Kernel ist für einen Multi-Silicon-Ansatz mit separaten Backends für NVIDIA- und AMD-GPUs ausgelegt; das Plugin-System (@register_kernel) ermöglicht das Hinzufügen von Unterstützung für neue Architekturen ohne Änderung des gemeinsamen Codes.