AMD: ATOM-Optimizer — DP Attention und Two-Batch Overlap für DeepSeek-V4 auf MI355X
ATOM ist AMDs Open-Source-Inferenz-Engine für den MI355X-GPU mit zwei Optimierungen für DeepSeek-V4: PrefillDelayer eliminiert Koordinationsverluste zwischen Data-Parallel-Ranks, und Two-Batch Overlap beschleunigt das Token-Balancing durch Überlappung von Netzwerkoperationen.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Was ist ATOM und warum entwickelt AMD eine eigene Inferenz-Engine?
ATOM ist AMDs Open-Source-Inferenz-Engine — eine Softwareschicht, die optimiert, wie der MI355X-GPU große Sprachmodelle ausführt. Im Gegensatz zu Ansätzen, die spezialisierte All2All-Netzwerkhardware erfordern, zeigt ATOM, dass standardmäßige kollektive Primitive auf Standard-Interconnects vergleichbare Leistung erzielen können.
Zwei Schlüsseloptimierungen für DeepSeek-V4
PrefillDelayer koordiniert den Eintritt der Data-Parallel-Ranks in die Prefill-Phase — er eliminiert den sogenannten Dummy-Prefill-Verlust, der entsteht, wenn Ranks ohne nützliche Arbeit aufeinander warten. Die zweite Optimierung, Two-Batch Overlap, führt Token-Balancing auf Einzeltoken-Ebene ein und überlappt AllGather- und ReduceScatter-Netzwerkoperationen (AG/RS-Overlap), wodurch die Gesamtwartezeit auf Netzwerkübertragungen reduziert wird.
Ergebnisse im SemiAnalysis InferenceX Benchmark
Die Messungen wurden mit dem SemiAnalysis InferenceX Benchmark bei einem Workload von 8K Eingabe- und 1K Ausgabe-Tokens durchgeführt. AMD betont, dass ATOM auf dem MI355X mit spezialisierten All2All-Ansätzen konkurriert, die sonst teures Custom-Interconnect-Hardware erfordern — ein bedeutendes Ergebnis für Standardinfrastruktur. Der Code ist als Open Source öffentlich verfügbar und für alle zugänglich, die mit DeepSeek-V4 auf AMD-Hardware experimentieren.
Häufig gestellte Fragen
- Was ist die ATOM-Inferenz-Engine und wodurch unterscheidet sie sich von Standardlösungen?
- ATOM ist AMDs Open-Source-Inferenz-Engine — eine Softwareschicht, die steuert, wie der GPU KI-Modelle ausführt. Sie zeichnet sich dadurch aus, dass sie hohe Leistung mit standardmäßigen Netzwerkprimitiven erzielt, anstatt auf spezialisierte All2All-Ansätze zu setzen, die teures Custom-Interconnect-Hardware erfordern.
- Auf welchen Workloads wurde ATOM gemessen?
- Das Benchmarking erfolgte mit dem SemiAnalysis InferenceX-Test mit einem Workload von 8K Eingabe- und 1K Ausgabe-Tokens — typische Produktionsanforderungen für ein großes Sprachmodell wie DeepSeek-V4.
Verwandte Nachrichten
OpenAI: Jalapeño — eigener ASIC-Chip für LLM-Inferenz, um die Abhängigkeit von NVIDIA zu reduzieren
AMD ROCm: EAGLE3 Speculative Decoding beschleunigt Kimi-K2.5 um 33 % auf MI325X
NVIDIA: CUDA-X-Bibliotheken cuPhoton, DAQIRI und ALCHEMI beschleunigen Astronomie, Chemie und Materialwissenschaft