🟡 📦 Open Source Donnerstag, 7. Mai 2026 · 2 Min. Lesezeit ·

AMD: vLLM-ATOM-Plugin bringt Instinct-Optimierungen ohne Änderungen am vLLM-Code

Editorial illustration: vLLM-ATOM-Plugin bringt Instinct-Optimierungen ohne Änderungen am vLLM-Code

AMD hat vLLM-ATOM vorgestellt, ein Open-Source-Plugin, das Optimierungen für Instinct-GPUs in das vLLM-Produktions-Framework integriert, ohne den Quellcode zu verändern. Es wird automatisch über Python-entry_points aktiviert, unterstützt Dense- und MoE-Modelle wie Kimi-K2.5 und DeepSeek V3/R1 und nutzt AITER-Kernel für fused MoE und Flash Attention.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Was ist vLLM-ATOM?

AMD stellte am 7. Mai 2026 vLLM-ATOM vor, ein Open-Source-Plugin, das Optimierungen für Instinct-GPUs in vLLM integriert, eines der am weitesten verbreiteten Produktions-Frameworks zum Serving großer Sprachmodelle. Das wesentliche Merkmal ist, dass die Integration ohne eine einzige Änderung am Upstream-vLLM-Quellcode erreicht wird — das Plugin aktiviert sich über den Standard-Python-entry_points-Mechanismus und registriert zwei Hooks: register_platform() und register_model().

Dreischichtige Architektur

Das Plugin führt eine klare Trennung der Zuständigkeiten über drei Schichten ein:

  • Die vLLM-Schicht behält die Kontrolle über Request-Scheduling, KV-Cache-Management, Continuous Batching und die OpenAI-kompatible API.
  • Das ATOM-Plugin registriert die Plattform, optimierte Modellimplementierungen und das Attention-Backend-Routing.
  • AITER liefert niederstufige GPU-Kernel, optimiert für Instinct-Hardware.

Diese Aufteilung ermöglicht es AMD, Optimierungen beizusteuern, ohne das vLLM-Repository zu forken — was für die Nachhaltigkeit im Open-Source-Ökosystem entscheidend ist.

Welche Modelle werden unterstützt?

Das Plugin deckt sowohl Text- (LLM) als auch multimodale (VLM) Modelle über Dense- und MoE-Architekturen ab:

  • Kimi-K2.5 — multimodales MoE-Modell (Text/Bild/Video)
  • DeepSeek V3 und R1 mit MLA+MoE-Varianten, einschließlich FP8- und MXFP4-Quantisierung
  • Qwen3-Serie in Dense- und MoE-Konfigurationen
  • GLM-4 und GPT-OSS mit MoE-Unterstützung

Das Attention-Backend-Routing ist automatisch: AiterBackend für Standard-Multi-Head-Attention, AiterMLABackend für Multi-head-Latent-Attention-Architekturen.

Warum ist dies strategisch wichtig?

NVIDIA dominiert den Inferenzmarkt ebenso durch sein ausgereiftes Software-Paradigma wie durch seine Hardware. AMDs Schritt mit vLLM-ATOM — plus AITER-Kernel für fused MoE und Flash Attention — zeigt, dass sich das Unternehmen auf ein „Zero-Friction”-Erlebnis konzentriert: das Plugin neben vLLM installieren, und die Optimierungen schalten sich automatisch ein. Ein Live-Benchmark-Dashboard verfolgt Durchsatz, Latenz und Genauigkeit über Modell-Updates hinweg und ermöglicht die Produktionsverifizierung vor der Skalierung. Für die Open-Source-Gemeinschaft, die Infrastruktur rund um Kimi-K2.5 und DeepSeek aufbaut, ist dies ein konkreter Schritt in Richtung Hardware-Diversität.

Häufig gestellte Fragen

Was ist vLLM?
Ein Open-Source-Produktions-Framework zum Serving großer Sprachmodelle, bekannt für hohen Durchsatz dank Mechanismen wie Continuous Batching und PagedAttention-KV-Cache.
Was ist MoE-Architektur?
Mixture of Experts — ein Modell mit mehreren spezialisierten Teilnetzen; beim Inferencing wird nur ein Teil davon aktiviert, was große Kapazität bei geringeren Rechenkosten pro Token ermöglicht.
Was ist AITER?
AMDs Bibliothek mit niederstufigen GPU-Kerneln, optimiert für Instinct-Hardware — umfasst fused MoE, Flash Attention, quantisierten GEMM und RoPE Fusion.