AMD vLLM-ATOM — Instinct-Optimierungen für vLLM

AMD hat vLLM-ATOM vorgestellt, ein Open-Source-Plugin, das Optimierungen für Instinct-GPUs in das vLLM-Produktions-Framework integriert, ohne den Quellcode zu verändern. Es wird automatisch über Python-entry_points aktiviert, unterstützt Dense- und MoE-Modelle wie Kimi-K2.5 und DeepSeek V3/R1 und nutzt AITER-Kernel für fused MoE und Flash Attention.

Was ist vLLM-ATOM?

AMD stellte am 7. Mai 2026 vLLM-ATOM vor, ein Open-Source-Plugin, das Optimierungen für Instinct-GPUs in vLLM integriert, eines der am weitesten verbreiteten Produktions-Frameworks zum Serving großer Sprachmodelle. Das wesentliche Merkmal ist, dass die Integration ohne eine einzige Änderung am Upstream-vLLM-Quellcode erreicht wird — das Plugin aktiviert sich über den Standard-Python-entry_points-Mechanismus und registriert zwei Hooks: register_platform() und register_model().

Dreischichtige Architektur

Das Plugin führt eine klare Trennung der Zuständigkeiten über drei Schichten ein:

Die vLLM-Schicht behält die Kontrolle über Request-Scheduling, KV-Cache-Management, Continuous Batching und die OpenAI-kompatible API.
Das ATOM-Plugin registriert die Plattform, optimierte Modellimplementierungen und das Attention-Backend-Routing.
AITER liefert niederstufige GPU-Kernel, optimiert für Instinct-Hardware.

Diese Aufteilung ermöglicht es AMD, Optimierungen beizusteuern, ohne das vLLM-Repository zu forken — was für die Nachhaltigkeit im Open-Source-Ökosystem entscheidend ist.

Welche Modelle werden unterstützt?

Das Plugin deckt sowohl Text- (LLM) als auch multimodale (VLM) Modelle über Dense- und MoE-Architekturen ab:

Kimi-K2.5 — multimodales MoE-Modell (Text/Bild/Video)
DeepSeek V3 und R1 mit MLA+MoE-Varianten, einschließlich FP8- und MXFP4-Quantisierung
Qwen3-Serie in Dense- und MoE-Konfigurationen
GLM-4 und GPT-OSS mit MoE-Unterstützung

Das Attention-Backend-Routing ist automatisch: AiterBackend für Standard-Multi-Head-Attention, AiterMLABackend für Multi-head-Latent-Attention-Architekturen.

Warum ist dies strategisch wichtig?

NVIDIA dominiert den Inferenzmarkt ebenso durch sein ausgereiftes Software-Paradigma wie durch seine Hardware. AMDs Schritt mit vLLM-ATOM — plus AITER-Kernel für fused MoE und Flash Attention — zeigt, dass sich das Unternehmen auf ein „Zero-Friction”-Erlebnis konzentriert: das Plugin neben vLLM installieren, und die Optimierungen schalten sich automatisch ein. Ein Live-Benchmark-Dashboard verfolgt Durchsatz, Latenz und Genauigkeit über Modell-Updates hinweg und ermöglicht die Produktionsverifizierung vor der Skalierung. Für die Open-Source-Gemeinschaft, die Infrastruktur rund um Kimi-K2.5 und DeepSeek aufbaut, ist dies ein konkreter Schritt in Richtung Hardware-Diversität.

Häufig gestellte Fragen

Was ist vLLM?

Ein Open-Source-Produktions-Framework zum Serving großer Sprachmodelle, bekannt für hohen Durchsatz dank Mechanismen wie Continuous Batching und PagedAttention-KV-Cache.

Was ist MoE-Architektur?

Mixture of Experts — ein Modell mit mehreren spezialisierten Teilnetzen; beim Inferencing wird nur ein Teil davon aktiviert, was große Kapazität bei geringeren Rechenkosten pro Token ermöglicht.

Was ist AITER?

AMDs Bibliothek mit niederstufigen GPU-Kerneln, optimiert für Instinct-Hardware — umfasst fused MoE, Flash Attention, quantisierten GEMM und RoPE Fusion.

AMD: vLLM-ATOM-Plugin bringt Instinct-Optimierungen ohne Änderungen am vLLM-Code

Was ist vLLM-ATOM?

Dreischichtige Architektur

Welche Modelle werden unterstützt?

Warum ist dies strategisch wichtig?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten