Kako Eagle3 ubrzava inferenciju bez degradacije kvalitete?

Eagle3 koristi manji draft model koji predlaže nekoliko kandidat-tokena odjednom, a ciljni model verificira sve predložene tokene u jednom forward passu. Odbijeni tokeni forsiraju normalno dekodiranje pa izlazna distribucija ostaje matematički identična originalnoj — nema gubitka kvalitete.

Što AMD Quark donosi za Eagle3?

AMD Quark kvantizirao je draft model Kimi-K2.5 na FP8 preciznost uz LM head u višoj preciznosti. FP8 draft model zauzima manje GPU memorije i u mjerenjima blago nadmašuje BF16 inačicu, postizavši maksimalno 2,00x throughput na MI355X.

Na kojim modelima i hardveru je demonstrirano ubrzanje?

Kimi-K2.5 (MXFP4 target) postiže 1,69x do 2,00x throughput, a MiniMax-M2.5 (BF16) postiže 1,38x do 1,79x, sve mjereno na AMD Instinct MI355X s ROCm stackom i vLLM backendom uz AITER MLA pažnju.

AMD Eagle3: spekulativno dekodiranje na MI355X

AMD ROCm tim objavio je 3. srpnja 2026. detalje produkcijske primjene Eagle3 spekulativnog dekodiranja na AMD hardveru. Kombinacija Eagle3 multi-layer pristupa, vLLM backenda i AMD Quark FP8 kvantizacije postiže 1,69x do 2,00x veći throughput za Kimi-K2.5 i 1,38x do 1,79x za MiniMax-M2.5 na AMD Instinct MI355X, bez gubitka u kvaliteti izlaza.

AMD ROCm tim objavio je 3. srpnja 2026. detaljan prikaz produkcijske primjene Eagle3 spekulativnog dekodiranja na AMD GPU akceleratorima. Kombinacija Eagle3 pristupa, vLLM inferentnog okvira i AMD Quark alata za kvantizaciju postiže do 2,00× veći throughput za Kimi-K2.5 na AMD Instinct MI355X, uz matematički garantirano očuvanje kvalitete izlaznih tokena. Rad dokumentira i rješenje ključne tehničke prepreke koja je dosad sprječavala simultanu aktivaciju Eagle3 i AITER MLA pažnje u vLLM-u.

Kako Eagle3 ubrzava inferenciju bez gubitka kvalitete?

Eagle3 je lossless tehnika ubrzanja inferencije koja čuva točnu izlaznu distribuciju ciljnog modela. Standardni autoregresivni LLM generira svaki token zasebno, u sekvencijalnim forward passovima koji ne mogu biti paralelno iskorišteni. Eagle3 razbija tu sekvecijalnost uvođenjem manjeg draft modela: draft model predlaže nekoliko kandidat-tokena odjednom, a ciljni model verificira sve predložene tokene u jednom zajedničkom forward passu. Tokeni koje ciljni model prihvati uključuju se u izlaz; odbijeni tokeni forsiraju normalno dekodiranje za taj položaj. Ta matematička garancija znači da Eagle3 nikad ne mijenja izlaznu distribuciju — ubrzanje se postiže isključivo smanjenjem broja forward passova ciljnog modela.

Ključna inovacija Eagle3 u usporedbi s ranijim spekulativnim pristupima jest trening draft modela na multi-layer značajkama ciljnog modela. Umjesto da draft model gleda samo zadnji sloj reprezentacija, Eagle3 integrira nisko-, srednje- i visoko-razinske semantičke značajke ciljnog modela. Visoke razine nose apstraktnu semantiku, srednje razine sintaktičku strukturu, a niske razine leksičke obrasce. Kombiniranjem svih triju razina draft model postiže višu stopu prihvaćanja predloženih tokena od jednostavnijih pristupa. Viša stopa prihvaćanja direktno se prevodi u veće ubrzanje jer ciljni model rjeđe mora obavljati pune korekcijske forward passove.

Kimi-K2.5 i MiniMax-M2.5 na AMD Instinct MI355X

Produkcijsko ubrzanje izmjereno je na dva frontier modela na AMD Instinct MI355X GPU-u, uz InferenceX benchmark paket i ROCm softverski stog.

Kimi-K2.5 s MXFP4 preciznošću ciljnog modela testiran je s dva tipa Eagle3 draft modela. BF16 Eagle3 draft postiže throughput faktor od 1,69× do 1,90× na 1K/1K workloadovima (1024 ulazna tokena, 1024 izlazna tokena) kroz razine konkurentnosti od 4 do 64 simultanih zahtjeva. FP8 Eagle3 draft, kvantiziran AMD Quarkom, blago nadmašuje BF16 inačicu: 1,76× do 2,00× uz maksimum od 2,00× pri konkurentnosti 4.

MiniMax-M2.5 s BF16 Eagle3 draft modelom postiže throughput faktor od 1,38× do 1,79× kroz iste razine konkurentnosti na istom MI355X hardveru. Ubrzanje raste s nižim razinama konkurentnosti, što je konzistentno s teorijskim ponašanjem spekulativnog dekodiranja: pri manjoj konkurentnosti batch verifikacija donosi relativno veću uštedu od forward pass troška.

AMD Quark i rješenje KV-cache nekompatibilnosti

Centralni doprinos ovog rada nije samo primjena Eagle3 na AMD hardveru — nego i rješenje temeljne tehničke prepreke. vLLM AITER MLA backend i Eagle3 spekulativno dekodiranje imali su nekompatibilnost KV-cache block-size parametra koja je sprječavala njihovu simultanu aktivaciju bez degradacije performansa. AITER MLA donosi efikasnost pozornosti (attention) na dugim kontekstima, a Eagle3 ubrzava sekvencijalnu generaciju tokena — kombinacija je teorijski idealna, ali tehnički blokirana.

AMD-ovi inženjeri riješili su tu nekompatibilnost, čime su omogućili da obje optimizacije rade zajedno bez ijednog kompromisa u konfiguraciji. Produkcijska konfiguracija koristi ROCm stack, vLLM s AITER MLA pozadinom i Eagle3 draft model bez ikakvih posebnih zaobilaznih mjera.

AMD Quark alatom za kvantizaciju, draft model Kimi-K2.5 Eagle3 kvantiziran je na FP8 preciznost, s LM head slojem zadržanim u višoj preciznosti radi stabilnosti. FP8 draft model ne samo da zauzima manje GPU memorije nego u mjerenjima marginalno nadmašuje BF16 inačicu. Taj nalaz sugerira da kvantizacijski šum FP8 draft modela u ovom kontekstu ne degradira stopu prihvaćanja tokena — ili je čak statistički neutralan za zadane modele i workloadove. Ciljni hardver za sve produkcijske konfiguracije su AMD Instinct MI350X i MI355X akceleratori. Rad pokazuje da kombinacija Eagle3 i FP8 kvantizacije nije kompromis između brzine i kvalitete, nego istovremeno poboljšanje na oba fronta: manji memorijski otisak draft modela ostavlja više HBM kapaciteta ciljnom modelu, dok spekulativno dekodiranje smanjuje ukupan broj skupih forward passova po generiranom tokenu.

AMD Eagle3 i Quark FP8: spekulativno dekodiranje donosi do 2,00x throughput na MI355X

Kako Eagle3 ubrzava inferenciju bez gubitka kvalitete?

Kimi-K2.5 i MiniMax-M2.5 na AMD Instinct MI355X

AMD Quark i rješenje KV-cache nekompatibilnosti

Česta pitanja

Izvori

Povezane vijesti