🟡 🔧 Hardware Objavljeno: · 4 min čitanja ·

AMD Eagle3 i Quark FP8: spekulativno dekodiranje donosi do 2,00x throughput na MI355X

Editorial ilustracija: AMD Eagle3 spekulativno dekodiranje na AMD Instinct GPU-u za ubrzano zaključivanje

AMD ROCm tim objavio je 3. srpnja 2026. detalje produkcijske primjene Eagle3 spekulativnog dekodiranja na AMD hardveru. Kombinacija Eagle3 multi-layer pristupa, vLLM backenda i AMD Quark FP8 kvantizacije postiže 1,69x do 2,00x veći throughput za Kimi-K2.5 i 1,38x do 1,79x za MiniMax-M2.5 na AMD Instinct MI355X, bez gubitka u kvaliteti izlaza.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

AMD ROCm tim objavio je 3. srpnja 2026. detaljan prikaz produkcijske primjene Eagle3 spekulativnog dekodiranja na AMD GPU akceleratorima. Kombinacija Eagle3 pristupa, vLLM inferentnog okvira i AMD Quark alata za kvantizaciju postiže do 2,00× veći throughput za Kimi-K2.5 na AMD Instinct MI355X, uz matematički garantirano očuvanje kvalitete izlaznih tokena. Rad dokumentira i rješenje ključne tehničke prepreke koja je dosad sprječavala simultanu aktivaciju Eagle3 i AITER MLA pažnje u vLLM-u.

Kako Eagle3 ubrzava inferenciju bez gubitka kvalitete?

Eagle3 je lossless tehnika ubrzanja inferencije koja čuva točnu izlaznu distribuciju ciljnog modela. Standardni autoregresivni LLM generira svaki token zasebno, u sekvencijalnim forward passovima koji ne mogu biti paralelno iskorišteni. Eagle3 razbija tu sekvecijalnost uvođenjem manjeg draft modela: draft model predlaže nekoliko kandidat-tokena odjednom, a ciljni model verificira sve predložene tokene u jednom zajedničkom forward passu. Tokeni koje ciljni model prihvati uključuju se u izlaz; odbijeni tokeni forsiraju normalno dekodiranje za taj položaj. Ta matematička garancija znači da Eagle3 nikad ne mijenja izlaznu distribuciju — ubrzanje se postiže isključivo smanjenjem broja forward passova ciljnog modela.

Ključna inovacija Eagle3 u usporedbi s ranijim spekulativnim pristupima jest trening draft modela na multi-layer značajkama ciljnog modela. Umjesto da draft model gleda samo zadnji sloj reprezentacija, Eagle3 integrira nisko-, srednje- i visoko-razinske semantičke značajke ciljnog modela. Visoke razine nose apstraktnu semantiku, srednje razine sintaktičku strukturu, a niske razine leksičke obrasce. Kombiniranjem svih triju razina draft model postiže višu stopu prihvaćanja predloženih tokena od jednostavnijih pristupa. Viša stopa prihvaćanja direktno se prevodi u veće ubrzanje jer ciljni model rjeđe mora obavljati pune korekcijske forward passove.

Kimi-K2.5 i MiniMax-M2.5 na AMD Instinct MI355X

Produkcijsko ubrzanje izmjereno je na dva frontier modela na AMD Instinct MI355X GPU-u, uz InferenceX benchmark paket i ROCm softverski stog.

Kimi-K2.5 s MXFP4 preciznošću ciljnog modela testiran je s dva tipa Eagle3 draft modela. BF16 Eagle3 draft postiže throughput faktor od 1,69× do 1,90× na 1K/1K workloadovima (1024 ulazna tokena, 1024 izlazna tokena) kroz razine konkurentnosti od 4 do 64 simultanih zahtjeva. FP8 Eagle3 draft, kvantiziran AMD Quarkom, blago nadmašuje BF16 inačicu: 1,76× do 2,00× uz maksimum od 2,00× pri konkurentnosti 4.

MiniMax-M2.5 s BF16 Eagle3 draft modelom postiže throughput faktor od 1,38× do 1,79× kroz iste razine konkurentnosti na istom MI355X hardveru. Ubrzanje raste s nižim razinama konkurentnosti, što je konzistentno s teorijskim ponašanjem spekulativnog dekodiranja: pri manjoj konkurentnosti batch verifikacija donosi relativno veću uštedu od forward pass troška.

AMD Quark i rješenje KV-cache nekompatibilnosti

Centralni doprinos ovog rada nije samo primjena Eagle3 na AMD hardveru — nego i rješenje temeljne tehničke prepreke. vLLM AITER MLA backend i Eagle3 spekulativno dekodiranje imali su nekompatibilnost KV-cache block-size parametra koja je sprječavala njihovu simultanu aktivaciju bez degradacije performansa. AITER MLA donosi efikasnost pozornosti (attention) na dugim kontekstima, a Eagle3 ubrzava sekvencijalnu generaciju tokena — kombinacija je teorijski idealna, ali tehnički blokirana.

AMD-ovi inženjeri riješili su tu nekompatibilnost, čime su omogućili da obje optimizacije rade zajedno bez ijednog kompromisa u konfiguraciji. Produkcijska konfiguracija koristi ROCm stack, vLLM s AITER MLA pozadinom i Eagle3 draft model bez ikakvih posebnih zaobilaznih mjera.

AMD Quark alatom za kvantizaciju, draft model Kimi-K2.5 Eagle3 kvantiziran je na FP8 preciznost, s LM head slojem zadržanim u višoj preciznosti radi stabilnosti. FP8 draft model ne samo da zauzima manje GPU memorije nego u mjerenjima marginalno nadmašuje BF16 inačicu. Taj nalaz sugerira da kvantizacijski šum FP8 draft modela u ovom kontekstu ne degradira stopu prihvaćanja tokena — ili je čak statistički neutralan za zadane modele i workloadove. Ciljni hardver za sve produkcijske konfiguracije su AMD Instinct MI350X i MI355X akceleratori. Rad pokazuje da kombinacija Eagle3 i FP8 kvantizacije nije kompromis između brzine i kvalitete, nego istovremeno poboljšanje na oba fronta: manji memorijski otisak draft modela ostavlja više HBM kapaciteta ciljnom modelu, dok spekulativno dekodiranje smanjuje ukupan broj skupih forward passova po generiranom tokenu.

Česta pitanja

Kako Eagle3 ubrzava inferenciju bez degradacije kvalitete?
Eagle3 koristi manji draft model koji predlaže nekoliko kandidat-tokena odjednom, a ciljni model verificira sve predložene tokene u jednom forward passu. Odbijeni tokeni forsiraju normalno dekodiranje pa izlazna distribucija ostaje matematički identična originalnoj — nema gubitka kvalitete.
Što AMD Quark donosi za Eagle3?
AMD Quark kvantizirao je draft model Kimi-K2.5 na FP8 preciznost uz LM head u višoj preciznosti. FP8 draft model zauzima manje GPU memorije i u mjerenjima blago nadmašuje BF16 inačicu, postizavši maksimalno 2,00x throughput na MI355X.
Na kojim modelima i hardveru je demonstrirano ubrzanje?
Kimi-K2.5 (MXFP4 target) postiže 1,69x do 2,00x throughput, a MiniMax-M2.5 (BF16) postiže 1,38x do 1,79x, sve mjereno na AMD Instinct MI355X s ROCm stackom i vLLM backendom uz AITER MLA pažnju.