🟡 🔧 Hardware srijeda, 6. svibnja 2026. · 2 min čitanja ·

AMD: FarSkip-Collective ubrzava MoE inferenciju 18-34 % na AMD GPU-ima

Editorial illustration: paralelni tokovi između AMD GPU-a tijekom MoE inferencije bez idle blokova.

AMD ROCm tim predstavio je FarSkip-Collective, modificiranu MoE arhitekturu koja eliminira GPU idle vrijeme tijekom Expert Parallelism komunikacije. Rezultati: 18 % manji TTFT za Llama-4 Scout, do 1,34× ubrzanje za DeepSeek-V3 i 11 % bržu Moonlight pre-trening fazu.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Što je AMD objavio?

AMD ROCm tim predstavio je FarSkip-Collective, modificiranu MoE (Mixture of Experts) arhitekturu koja rješava problem mirovanja GPU-a tijekom Expert Parallelism komunikacije. Rješenje koristi “djelomično ili zastarjelo aktivacijsko stanje koje je već dostupno” za pokretanje sljedećeg sloja dok komunikacija teče paralelno, eliminirajući blokirajuće sinkronizacijske mjehure.

Što su MoE i Expert Parallelism?

Za HR čitatelje: MoE je arhitektura u kojoj se za svaki token aktivira samo dio “eksperata” (specijaliziranih sub-mreža), a ne cijeli model. Expert Parallelism je strategija raspoređivanja tih eksperata preko više GPU-a, što zahtijeva međusobnu komunikaciju kartica.

TTFT (Time to First Token) je kašnjenje od korisničkog upita do prvog tokena izlaza — ključna metrika za interaktivne LLM aplikacije.

Koliko brže radi inferencija?

AMD navodi konkretne rezultate na ROCm platformi:

  • 18 % manji TTFT za Llama-4 Scout
  • do 1,34× ubrzanja za DeepSeek-V3 (671 milijardi parametara)
  • 11 % bržu pre-trening fazu za Moonlight model
  • 16 % dodatno ubrzanje u kombinaciji s Grouped-Query-Attention tehnikom

Rezultati su mjereni na AMD Instinct GPU-ima, a pristup ne mijenja MoE rezultate — točnost je održana u odnosu na standardne baseline modele.

Zašto je preklapanje važno?

U klasičnoj Expert Parallelism shemi GPU mora čekati da prethodni sloj završi razmjenu aktivacija prije pokretanja sljedećeg. Tu se stvara “bubble” — vrijeme u kojem računske jedinice miruju.

FarSkip-Collective preklapa tu komunikaciju s računom sljedećeg sloja, pa GPU rijetko čeka. Rezultat je veći prosječni utrošak hardvera bez novih troškova.

Česta pitanja

Što je MoE arhitektura?
Mixture of Experts je arhitektura gdje se za svaki token aktivira samo podskup specijaliziranih sub-mreža (eksperata) umjesto cijelog modela, čime se smanjuje računski trošak.
Koliko ubrzanje donosi DeepSeek-V3?
Do 1,34× brže izvršavanje za 671 milijardi parametara DeepSeek-V3 modela u inferenciji.
Trpi li točnost modela?
Ne. AMD navodi da je točnost održana u odnosu na standardne MoE baseline modele.