AMD: Neuer ATOM Inference Engine für Instinct GPUs bietet OpenAI-kompatible API und MoE-Optimierungen
AMD hat ATOM vorgestellt, einen Inference Engine für Instinct GPUs, der eine OpenAI-kompatible API bereitstellt und KV-Cache, Scheduling und Parallelismus orchestriert. ATOM steht an der Spitze des ROCm-Stacks, neben AITER-Kerneln und MoRI-RDMA-Kommunikation, unterstützt TP-, DP- und EP-Parallelismus und ist für MoE-Modelle wie DeepSeek V2–V4, Mixtral und Qwen3-MoE optimiert. Er bietet FP8-, MXFP4-, INT8- und INT4-Quantisierung sowie MTP Speculative Decoding mit EAGLE-Proposer.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
AMD hat ATOM vorgestellt, einen Inference Engine für Instinct GPUs, der direkt auf das produktive Serving großer Sprachmodelle auf AMD-Hardware abzielt.
Was bietet ATOM und wo liegt er im AMD-Stack?
ATOM stellt eine OpenAI-kompatible API bereit und orchestriert KV-Cache, Scheduling und Parallelismus bei der Inferenz. Ein Inference Engine ist die Schicht, die Anfragen entgegennimmt und die Modellausführung auf GPUs verwaltet. ATOM steht an der Spitze des AMD-Stacks: ROCm als Plattform, AITER für Kernel-Beschleunigung, MoRI für RDMA-Kommunikation zwischen Knoten und ATOM als Serving-Schicht. RDMA (Remote Direct Memory Access) ermöglicht direkten Speichertransfer zwischen Geräten ohne CPU-Belastung.
Welche Modelle und Parallelisierungsarten unterstützt ATOM?
ATOM unterstützt Tensor- (TP), Daten- (DP) und Experten-Parallelismus (EP) und ist besonders für MoE-Modelle (Mixture of Experts) optimiert. Explizit genannte Modelle umfassen DeepSeek V2 bis V4, Mixtral, Qwen3-MoE, Kimi-K2.5 und MiniMax-M2. Expertenparallelismus verteilt einzelne MoE-Experten auf mehrere GPUs, was für effizientes Serving großer MoE-Architekturen entscheidend ist.
Wie beschleunigt ATOM die Inferenz?
ATOM bietet Quantisierung in den Formaten FP8, MXFP4, INT8 und INT4 mit automatischer Erkennung aus der HuggingFace-Modellkonfiguration. Quantisierung reduziert die Gewichtspräzision, um die Inferenz zu beschleunigen und den Speicherbedarf zu senken. Zusätzlich nutzt ATOM MTP Speculative Decoding mit EAGLE-Proposer, Prefix-Cache-Sharing und stückweise Kompilierung für schnellere Verarbeitung.
Wie wird ATOM in der Praxis eingesetzt?
ATOM kann eigenständig oder als Plugin für vLLM und SGLang betrieben werden, zwei populäre LLM-Serving-Bibliotheken. AMD veröffentlicht zudem ein öffentliches Benchmark-Dashboard mit nächtlichem Performance-Tracking, das einen transparenten Einblick in den Fortschritt beim Serving auf Instinct GPUs als Alternative zum NVIDIA-Stack bietet.
Häufig gestellte Fragen
- Was ist AMD ATOM?
- Ein Inference Engine für AMD Instinct GPUs mit OpenAI-kompatibler API, der KV-Cache, Scheduling und Parallelismus orchestriert.
- Welche Modelle optimiert ATOM?
- MoE-Modelle wie DeepSeek V2–V4, Mixtral, Qwen3-MoE, Kimi-K2.5 und MiniMax-M2.
- Welche Quantisierungsformate unterstützt ATOM?
- FP8, MXFP4, INT8 und INT4, mit automatischer Erkennung aus der HuggingFace-Konfiguration.
Verwandte Nachrichten
AMD: Gluon Block-Level-Modell ermöglicht GEMM-Kernels mit 5,255 TFLOPS MXFP4 auf Instinct MI355
AMD: ROCm 7.13 bringt MI350P-GPU, Multi-VF-Virtualisierung und TheRock-Paketierung
AMD ROCm: BubbleFence partitioniert Video-Streams mit Embeddings aus Vision-Foundation-Modellen statt Metadaten-Heuristiken