AMD ATOM: Inference Engine für Instinct GPUs

AMD hat ATOM vorgestellt, einen Inference Engine für Instinct GPUs, der eine OpenAI-kompatible API bereitstellt und KV-Cache, Scheduling und Parallelismus orchestriert. ATOM steht an der Spitze des ROCm-Stacks, neben AITER-Kerneln und MoRI-RDMA-Kommunikation, unterstützt TP-, DP- und EP-Parallelismus und ist für MoE-Modelle wie DeepSeek V2–V4, Mixtral und Qwen3-MoE optimiert. Er bietet FP8-, MXFP4-, INT8- und INT4-Quantisierung sowie MTP Speculative Decoding mit EAGLE-Proposer.

AMD hat ATOM vorgestellt, einen Inference Engine für Instinct GPUs, der direkt auf das produktive Serving großer Sprachmodelle auf AMD-Hardware abzielt.

Was bietet ATOM und wo liegt er im AMD-Stack?

ATOM stellt eine OpenAI-kompatible API bereit und orchestriert KV-Cache, Scheduling und Parallelismus bei der Inferenz. Ein Inference Engine ist die Schicht, die Anfragen entgegennimmt und die Modellausführung auf GPUs verwaltet. ATOM steht an der Spitze des AMD-Stacks: ROCm als Plattform, AITER für Kernel-Beschleunigung, MoRI für RDMA-Kommunikation zwischen Knoten und ATOM als Serving-Schicht. RDMA (Remote Direct Memory Access) ermöglicht direkten Speichertransfer zwischen Geräten ohne CPU-Belastung.

Welche Modelle und Parallelisierungsarten unterstützt ATOM?

ATOM unterstützt Tensor- (TP), Daten- (DP) und Experten-Parallelismus (EP) und ist besonders für MoE-Modelle (Mixture of Experts) optimiert. Explizit genannte Modelle umfassen DeepSeek V2 bis V4, Mixtral, Qwen3-MoE, Kimi-K2.5 und MiniMax-M2. Expertenparallelismus verteilt einzelne MoE-Experten auf mehrere GPUs, was für effizientes Serving großer MoE-Architekturen entscheidend ist.

Wie beschleunigt ATOM die Inferenz?

ATOM bietet Quantisierung in den Formaten FP8, MXFP4, INT8 und INT4 mit automatischer Erkennung aus der HuggingFace-Modellkonfiguration. Quantisierung reduziert die Gewichtspräzision, um die Inferenz zu beschleunigen und den Speicherbedarf zu senken. Zusätzlich nutzt ATOM MTP Speculative Decoding mit EAGLE-Proposer, Prefix-Cache-Sharing und stückweise Kompilierung für schnellere Verarbeitung.

Wie wird ATOM in der Praxis eingesetzt?

ATOM kann eigenständig oder als Plugin für vLLM und SGLang betrieben werden, zwei populäre LLM-Serving-Bibliotheken. AMD veröffentlicht zudem ein öffentliches Benchmark-Dashboard mit nächtlichem Performance-Tracking, das einen transparenten Einblick in den Fortschritt beim Serving auf Instinct GPUs als Alternative zum NVIDIA-Stack bietet.

Häufig gestellte Fragen

Was ist AMD ATOM?

Ein Inference Engine für AMD Instinct GPUs mit OpenAI-kompatibler API, der KV-Cache, Scheduling und Parallelismus orchestriert.

Welche Modelle optimiert ATOM?

MoE-Modelle wie DeepSeek V2–V4, Mixtral, Qwen3-MoE, Kimi-K2.5 und MiniMax-M2.

Welche Quantisierungsformate unterstützt ATOM?

FP8, MXFP4, INT8 und INT4, mit automatischer Erkennung aus der HuggingFace-Konfiguration.

AMD: Neuer ATOM Inference Engine für Instinct GPUs bietet OpenAI-kompatible API und MoE-Optimierungen

Was bietet ATOM und wo liegt er im AMD-Stack?

Welche Modelle und Parallelisierungsarten unterstützt ATOM?

Wie beschleunigt ATOM die Inferenz?

Wie wird ATOM in der Praxis eingesetzt?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten