AMD: ATOM optimizer — DP Attention i Two-Batch Overlap za DeepSeek-V4 na MI355X
ATOM je AMD-ov open-source inference engine (softverski pogon za pokretanje AI modela) za MI355X GPU koji donosi dvije optimizacije za DeepSeek-V4: PrefillDelayer eliminira gubitak pri koordinaciji rankova, a Two-Batch Overlap ubrzava balansiranje tokena uz preklapanje mrežnih operacija.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što je ATOM i zašto AMD razvija vlastiti inference engine?
ATOM je AMD-ov open-source inference engine — softverski pogon koji optimizira kako MI355X GPU pokreće velike jezične modele. Za razliku od pristupa koji zahtijevaju specijalizirani all2all mrežni hardware, ATOM pokazuje da standardni kolektivni primitivi na standardnim interconnectima mogu postići usporedive performanse.
Dvije ključne optimizacije za DeepSeek-V4
PrefillDelayer koordinira ulazak Data Parallel rankova u prefill fazu — eliminira takozvani dummy-prefill gubitak koji nastaje kad rankovi čekaju jedni na druge bez korisnog rada. Druga optimizacija, Two-Batch Overlap, uvodi balansiranje tokena na razini pojedinih tokena i preklapanje AllGather i ReduceScatter mrežnih operacija (AG/RS overlap), čime se smanjuje ukupno čekanje na mrežni prijenos.
Rezultati na SemiAnalysis InferenceX benchmarku
Mjerenja su provedena na SemiAnalysis InferenceX benchmarku s workloadom 8K ulaznih i 1K izlaznih tokena. AMD ističe da ATOM na MI355X rivalizira specijaliziranim all2all pristupima koji inače zahtijevaju skupi custom interconnect hardware — značajan rezultat za standardnu infrastrukturu. Kod je javno dostupan kao open-source, što ga čini dostupnim svima koji eksperimentiraju s DeepSeek-V4 na AMD hardveru.
Česta pitanja
- Što je ATOM inference engine i po čemu se razlikuje od standardnih rješenja?
- ATOM je AMD-ov open-source inference engine — softverski sloj koji upravlja kako GPU izvodi AI modele. Razlikuje se po tome što postiže visoke performanse koristeći standardne mrežne primitive umjesto specijaliziranih all2all pristupa koje zahtijevaju skupi custom interconnect.
- Na kojim workloadima je ATOM mjeren?
- Benchmarking je proveden na SemiAnalysis InferenceX testu s workloadom 8K ulaznih i 1K izlaznih tokena, što odgovara tipičnim produkcijskim zahtjevima za veliki jezični model poput DeepSeek-V4.