AMD ROCm: EAGLE3 speculative decoding ubrzava Kimi-K2.5 za 33% na MI325X
AMD ROCm tim demonstrirao je EAGLE3 speculative decoding na 8× Instinct MI325X s modelom Kimi-K2.5, postižući 33% veći output throughput i 58% manji median inter-token latency bez gubitka točnosti na GSM8K benchmarku.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
EAGLE3 donosi tree-based speculative decoding na AMD hardver
AMD ROCm tim objavio je rezultate implementacije EAGLE3 algoritma za ubrzanje inferencije na klasteru od 8× AMD Instinct MI325X grafičkih procesora, svaki s 256 GB HBM memorije (arhitektura gfx942). Testirani model bio je Kimi-K2.5 tvrtke Moonshot AI — masivni mixture-of-experts model s 497 GB parametara, kvantiziran u W4A8 formatu (INT4 težine, INT8 aktivacije).
Speculative decoding je tehnika kojom manji, brži draft-model u naprijed predlaže nekoliko mogućih narednih tokena, a glavni (veći) model ih paralelno verificira u jednom prolazu — umjesto da generira svaki token zasebno. EAGLE3 proširuje tu ideju na tree-based pristup: predlaže stablo više hipoteza odjednom, što povećava vjerojatnost da veliki model prihvati dulji niz bez ponovnog računanja.
Što donose mjerenja?
Rezultati su mjereni pri concurrency=40 simultanih zahtjeva:
- Output throughput: 672 → 895 tok/s, rast od +33,1%
- Decode latency (TPOT): 42,73 → 27,41 ms, pad od −35,9%
- Median inter-token latency (ITL): 27,98 → 11,75 ms, pad od −58,0%
Bez EAGLE3, svaki token čekao je u prosjeku gotovo 28 ms. S EAGLE3, čekanje pada na ispod 12 ms — više nego prepolovljeno. Točnost na GSM8K matematičkom benchmarku ostaje iznad 0,93, bez regresije.
Zašto je ovo važno za AMD ekosustav?
Rezultat pokazuje da AMD MI325X nije samo alternativa NVIDIA-inoj opremi na papiru, već može isporučiti konkretna ubrzanja za produkcijske MoE modele kroz softverske optimizacije u ROCm stacku — bez promjene hardvera ili gubitka kvalitete modela.
Česta pitanja
- Što je speculative decoding i zašto ubrzava generiranje teksta?
- Speculative decoding je tehnika u kojoj manji draft-model brzo predloži nekoliko narednih tokena, a veliki model ih paralelno verificira — umjesto da generira jedan token po jedan, čime se smanjuje čekanje između tokena.
- Dolazi li EAGLE3 ubrzanje na račun točnosti modela?
- Ne — GSM8K benchmark ostaje iznad 0,93, što znači da Kimi-K2.5 zadržava punu točnost uz značajno manji latency.
Povezane vijesti
NVIDIA: CUDA-X biblioteke cuPhoton, DAQIRI i ALCHEMI ubrzavaju astronomiju, kemiju i materijale
NVIDIA: JUPITER — prvo europsko exascale superračunalo postavlja znanstvene rekorde na ISC 2026
NVIDIA: Vera CPU u Los Alamosu — 7× brži agentic AI za nuklearnu znanost i 3 nova superračunala