🟢 🔧 Hardware Objavljeno: · 2 min čitanja ·

AMD ROCm: EAGLE3 speculative decoding ubrzava Kimi-K2.5 za 33% na MI325X

Editorial illustration: AMD Instinct MI325X GPU kartice u data centru s grafom rasta brzine generiranja teksta

AMD ROCm tim demonstrirao je EAGLE3 speculative decoding na 8× Instinct MI325X s modelom Kimi-K2.5, postižući 33% veći output throughput i 58% manji median inter-token latency bez gubitka točnosti na GSM8K benchmarku.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

EAGLE3 donosi tree-based speculative decoding na AMD hardver

AMD ROCm tim objavio je rezultate implementacije EAGLE3 algoritma za ubrzanje inferencije na klasteru od 8× AMD Instinct MI325X grafičkih procesora, svaki s 256 GB HBM memorije (arhitektura gfx942). Testirani model bio je Kimi-K2.5 tvrtke Moonshot AI — masivni mixture-of-experts model s 497 GB parametara, kvantiziran u W4A8 formatu (INT4 težine, INT8 aktivacije).

Speculative decoding je tehnika kojom manji, brži draft-model u naprijed predlaže nekoliko mogućih narednih tokena, a glavni (veći) model ih paralelno verificira u jednom prolazu — umjesto da generira svaki token zasebno. EAGLE3 proširuje tu ideju na tree-based pristup: predlaže stablo više hipoteza odjednom, što povećava vjerojatnost da veliki model prihvati dulji niz bez ponovnog računanja.

Što donose mjerenja?

Rezultati su mjereni pri concurrency=40 simultanih zahtjeva:

  • Output throughput: 672 → 895 tok/s, rast od +33,1%
  • Decode latency (TPOT): 42,73 → 27,41 ms, pad od −35,9%
  • Median inter-token latency (ITL): 27,98 → 11,75 ms, pad od −58,0%

Bez EAGLE3, svaki token čekao je u prosjeku gotovo 28 ms. S EAGLE3, čekanje pada na ispod 12 ms — više nego prepolovljeno. Točnost na GSM8K matematičkom benchmarku ostaje iznad 0,93, bez regresije.

Zašto je ovo važno za AMD ekosustav?

Rezultat pokazuje da AMD MI325X nije samo alternativa NVIDIA-inoj opremi na papiru, već može isporučiti konkretna ubrzanja za produkcijske MoE modele kroz softverske optimizacije u ROCm stacku — bez promjene hardvera ili gubitka kvalitete modela.

Česta pitanja

Što je speculative decoding i zašto ubrzava generiranje teksta?
Speculative decoding je tehnika u kojoj manji draft-model brzo predloži nekoliko narednih tokena, a veliki model ih paralelno verificira — umjesto da generira jedan token po jedan, čime se smanjuje čekanje između tokena.
Dolazi li EAGLE3 ubrzanje na račun točnosti modela?
Ne — GSM8K benchmark ostaje iznad 0,93, što znači da Kimi-K2.5 zadržava punu točnost uz značajno manji latency.