AMD: FarSkip-Collective ubrzava MoE inferenciju 18-34 % na AMD GPU-ima
AMD ROCm tim predstavio je FarSkip-Collective, modificiranu MoE arhitekturu koja eliminira GPU idle vrijeme tijekom Expert Parallelism komunikacije. Rezultati: 18 % manji TTFT za Llama-4 Scout, do 1,34× ubrzanje za DeepSeek-V3 i 11 % bržu Moonlight pre-trening fazu.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što je AMD objavio?
AMD ROCm tim predstavio je FarSkip-Collective, modificiranu MoE (Mixture of Experts) arhitekturu koja rješava problem mirovanja GPU-a tijekom Expert Parallelism komunikacije. Rješenje koristi “djelomično ili zastarjelo aktivacijsko stanje koje je već dostupno” za pokretanje sljedećeg sloja dok komunikacija teče paralelno, eliminirajući blokirajuće sinkronizacijske mjehure.
Što su MoE i Expert Parallelism?
Za HR čitatelje: MoE je arhitektura u kojoj se za svaki token aktivira samo dio “eksperata” (specijaliziranih sub-mreža), a ne cijeli model. Expert Parallelism je strategija raspoređivanja tih eksperata preko više GPU-a, što zahtijeva međusobnu komunikaciju kartica.
TTFT (Time to First Token) je kašnjenje od korisničkog upita do prvog tokena izlaza — ključna metrika za interaktivne LLM aplikacije.
Koliko brže radi inferencija?
AMD navodi konkretne rezultate na ROCm platformi:
- 18 % manji TTFT za Llama-4 Scout
- do 1,34× ubrzanja za DeepSeek-V3 (671 milijardi parametara)
- 11 % bržu pre-trening fazu za Moonlight model
- 16 % dodatno ubrzanje u kombinaciji s Grouped-Query-Attention tehnikom
Rezultati su mjereni na AMD Instinct GPU-ima, a pristup ne mijenja MoE rezultate — točnost je održana u odnosu na standardne baseline modele.
Zašto je preklapanje važno?
U klasičnoj Expert Parallelism shemi GPU mora čekati da prethodni sloj završi razmjenu aktivacija prije pokretanja sljedećeg. Tu se stvara “bubble” — vrijeme u kojem računske jedinice miruju.
FarSkip-Collective preklapa tu komunikaciju s računom sljedećeg sloja, pa GPU rijetko čeka. Rezultat je veći prosječni utrošak hardvera bez novih troškova.
Česta pitanja
- Što je MoE arhitektura?
- Mixture of Experts je arhitektura gdje se za svaki token aktivira samo podskup specijaliziranih sub-mreža (eksperata) umjesto cijelog modela, čime se smanjuje računski trošak.
- Koliko ubrzanje donosi DeepSeek-V3?
- Do 1,34× brže izvršavanje za 671 milijardi parametara DeepSeek-V3 modela u inferenciji.
- Trpi li točnost modela?
- Ne. AMD navodi da je točnost održana u odnosu na standardne MoE baseline modele.
Povezane vijesti
ArXiv SAGA: workflow-atomic GPU scheduling za AI agente postiže 1,64× brže task completion na 64-GPU klasteru, prihvaćeno na HPDC 2026
AMD Primus Projection: alat za predviđanje memorije i brzine treninga LLM-ova prije pokretanja na Instinct GPU klasterima
Google na Cloud Next '26 predstavio TPU 8i i TPU 8t: specijalizirani čipovi za agentno AI računarstvo