AMD ATOM Optimizer für DeepSeek-V4 auf MI355X

ATOM ist AMDs Open-Source-Inferenz-Engine für den MI355X-GPU mit zwei Optimierungen für DeepSeek-V4: PrefillDelayer eliminiert Koordinationsverluste zwischen Data-Parallel-Ranks, und Two-Batch Overlap beschleunigt das Token-Balancing durch Überlappung von Netzwerkoperationen.

Was ist ATOM und warum entwickelt AMD eine eigene Inferenz-Engine?

ATOM ist AMDs Open-Source-Inferenz-Engine — eine Softwareschicht, die optimiert, wie der MI355X-GPU große Sprachmodelle ausführt. Im Gegensatz zu Ansätzen, die spezialisierte All2All-Netzwerkhardware erfordern, zeigt ATOM, dass standardmäßige kollektive Primitive auf Standard-Interconnects vergleichbare Leistung erzielen können.

Zwei Schlüsseloptimierungen für DeepSeek-V4

PrefillDelayer koordiniert den Eintritt der Data-Parallel-Ranks in die Prefill-Phase — er eliminiert den sogenannten Dummy-Prefill-Verlust, der entsteht, wenn Ranks ohne nützliche Arbeit aufeinander warten. Die zweite Optimierung, Two-Batch Overlap, führt Token-Balancing auf Einzeltoken-Ebene ein und überlappt AllGather- und ReduceScatter-Netzwerkoperationen (AG/RS-Overlap), wodurch die Gesamtwartezeit auf Netzwerkübertragungen reduziert wird.

Ergebnisse im SemiAnalysis InferenceX Benchmark

Die Messungen wurden mit dem SemiAnalysis InferenceX Benchmark bei einem Workload von 8K Eingabe- und 1K Ausgabe-Tokens durchgeführt. AMD betont, dass ATOM auf dem MI355X mit spezialisierten All2All-Ansätzen konkurriert, die sonst teures Custom-Interconnect-Hardware erfordern — ein bedeutendes Ergebnis für Standardinfrastruktur. Der Code ist als Open Source öffentlich verfügbar und für alle zugänglich, die mit DeepSeek-V4 auf AMD-Hardware experimentieren.

Häufig gestellte Fragen

Was ist die ATOM-Inferenz-Engine und wodurch unterscheidet sie sich von Standardlösungen?

ATOM ist AMDs Open-Source-Inferenz-Engine — eine Softwareschicht, die steuert, wie der GPU KI-Modelle ausführt. Sie zeichnet sich dadurch aus, dass sie hohe Leistung mit standardmäßigen Netzwerkprimitiven erzielt, anstatt auf spezialisierte All2All-Ansätze zu setzen, die teures Custom-Interconnect-Hardware erfordern.

Auf welchen Workloads wurde ATOM gemessen?

Das Benchmarking erfolgte mit dem SemiAnalysis InferenceX-Test mit einem Workload von 8K Eingabe- und 1K Ausgabe-Tokens — typische Produktionsanforderungen für ein großes Sprachmodell wie DeepSeek-V4.

AMD: ATOM-Optimizer — DP Attention und Two-Batch Overlap für DeepSeek-V4 auf MI355X

Was ist ATOM und warum entwickelt AMD eine eigene Inferenz-Engine?

Zwei Schlüsseloptimierungen für DeepSeek-V4

Ergebnisse im SemiAnalysis InferenceX Benchmark

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten