AMD: vLLM-ATOM-Plugin bringt Instinct-Optimierungen ohne Änderungen am vLLM-Code
AMD hat vLLM-ATOM vorgestellt, ein Open-Source-Plugin, das Optimierungen für Instinct-GPUs in das vLLM-Produktions-Framework integriert, ohne den Quellcode zu verändern. Es wird automatisch über Python-entry_points aktiviert, unterstützt Dense- und MoE-Modelle wie Kimi-K2.5 und DeepSeek V3/R1 und nutzt AITER-Kernel für fused MoE und Flash Attention.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Was ist vLLM-ATOM?
AMD stellte am 7. Mai 2026 vLLM-ATOM vor, ein Open-Source-Plugin, das Optimierungen für Instinct-GPUs in vLLM integriert, eines der am weitesten verbreiteten Produktions-Frameworks zum Serving großer Sprachmodelle. Das wesentliche Merkmal ist, dass die Integration ohne eine einzige Änderung am Upstream-vLLM-Quellcode erreicht wird — das Plugin aktiviert sich über den Standard-Python-entry_points-Mechanismus und registriert zwei Hooks: register_platform() und register_model().
Dreischichtige Architektur
Das Plugin führt eine klare Trennung der Zuständigkeiten über drei Schichten ein:
- Die vLLM-Schicht behält die Kontrolle über Request-Scheduling, KV-Cache-Management, Continuous Batching und die OpenAI-kompatible API.
- Das ATOM-Plugin registriert die Plattform, optimierte Modellimplementierungen und das Attention-Backend-Routing.
- AITER liefert niederstufige GPU-Kernel, optimiert für Instinct-Hardware.
Diese Aufteilung ermöglicht es AMD, Optimierungen beizusteuern, ohne das vLLM-Repository zu forken — was für die Nachhaltigkeit im Open-Source-Ökosystem entscheidend ist.
Welche Modelle werden unterstützt?
Das Plugin deckt sowohl Text- (LLM) als auch multimodale (VLM) Modelle über Dense- und MoE-Architekturen ab:
- Kimi-K2.5 — multimodales MoE-Modell (Text/Bild/Video)
- DeepSeek V3 und R1 mit MLA+MoE-Varianten, einschließlich FP8- und MXFP4-Quantisierung
- Qwen3-Serie in Dense- und MoE-Konfigurationen
- GLM-4 und GPT-OSS mit MoE-Unterstützung
Das Attention-Backend-Routing ist automatisch: AiterBackend für Standard-Multi-Head-Attention, AiterMLABackend für Multi-head-Latent-Attention-Architekturen.
Warum ist dies strategisch wichtig?
NVIDIA dominiert den Inferenzmarkt ebenso durch sein ausgereiftes Software-Paradigma wie durch seine Hardware. AMDs Schritt mit vLLM-ATOM — plus AITER-Kernel für fused MoE und Flash Attention — zeigt, dass sich das Unternehmen auf ein „Zero-Friction”-Erlebnis konzentriert: das Plugin neben vLLM installieren, und die Optimierungen schalten sich automatisch ein. Ein Live-Benchmark-Dashboard verfolgt Durchsatz, Latenz und Genauigkeit über Modell-Updates hinweg und ermöglicht die Produktionsverifizierung vor der Skalierung. Für die Open-Source-Gemeinschaft, die Infrastruktur rund um Kimi-K2.5 und DeepSeek aufbaut, ist dies ein konkreter Schritt in Richtung Hardware-Diversität.
Häufig gestellte Fragen
- Was ist vLLM?
- Ein Open-Source-Produktions-Framework zum Serving großer Sprachmodelle, bekannt für hohen Durchsatz dank Mechanismen wie Continuous Batching und PagedAttention-KV-Cache.
- Was ist MoE-Architektur?
- Mixture of Experts — ein Modell mit mehreren spezialisierten Teilnetzen; beim Inferencing wird nur ein Teil davon aktiviert, was große Kapazität bei geringeren Rechenkosten pro Token ermöglicht.
- Was ist AITER?
- AMDs Bibliothek mit niederstufigen GPU-Kerneln, optimiert für Instinct-Hardware — umfasst fused MoE, Flash Attention, quantisierten GEMM und RoPE Fusion.
Quellen
Verwandte Nachrichten
Allen Institute: MolmoAct 2 ist das erste Open-Source-Robotik-Foundation-Modell, das GPT-5 und Gemini 2.5 Pro übertrifft
IBM Granite 4.1: Open-Source-Familie mit 3B/8B/30B Apache-2.0-Modellen, trainiert auf 15B Token, zeigt, dass ein dichtes 8B-Modell ein 32B-MoE-Modell ebenbürtig ist
Marco-MoE: Open-Source-mehrsprachiges MoE mit 5 % aktiven Parametern übertrifft Dense-Modelle mit 3–14-fach mehr Aktivierungen