🤖 24 AI
🟡 📦 Open Source utorak, 21. travnja 2026. · 3 min čitanja

AMD FLy: training-free spekulativno dekodiranje donosi 5,21× ubrzanje na Llama-3.3-405B uz točnost preko 99 %

Editorial ilustracija spekulativnog dekodiranja — draft model predlaže tokene, target model ih paralelno provjerava

Zašto je bitno

AMD FLy je nova training-free metoda spekulativnog dekodiranja koja semantičkim prihvaćanjem draft tokena postiže 4,80× do 5,21× ubrzanje na Llama-3.3-405B i 2,74× na Llama-3.1-70B uz točnost iznad 99 %, bez potrebe za dodatnom obukom modela.

Što je AMD FLy?

AMD istraživači su 20. travnja 2026. predstavili FLy, novu metodu spekulativnog dekodiranja koja radi bez dodatne obuke modela. Spekulativno dekodiranje je tehnika u kojoj manji i brži “draft” model unaprijed predviđa sljedećih nekoliko tokena, a veći “target” model ih paralelno provjerava — ako su točni, generiranje ide brže.

Dosad su najbolje metode poput EAGLE-3 zahtijevale posebnu fazu treniranja draft modela, što je skupo i kompleksno. FLy ruši tu prepreku: postiže training-free rezultate koji nadmašuju pristup s obukom.

Kako FLy prihvaća “pogrešne” tokene?

Ključna novost je da FLy prihvaća draft tokene koji su semantički ispravni, čak i kad se razlikuju od predikcija target modela. Klasično spekulativno dekodiranje zahtijeva exact match — token mora biti identičan onome što bi target model sam generirao. FLy opušta to pravilo koristeći dvostupanjsku verifikaciju:

  • Entropijski gate — detektira razine ambiguousnosti po tokenu i odlučuje kada se neslaganje može prihvatiti bez narušavanja kvalitete izlaza
  • Deferred window mehanizam — privremeno prihvaća neslaganje, a zatim prati sljedećih 6 tokena za retroaktivnu provjeru; ako se kontekst razvije ispravno, token ostaje, inače se vraća

Ova logika omogućuje modelu da više draft predikcija prođe provjeru, što direktno znači veće ubrzanje.

Koliki su stvarni rezultati na Llama modelima?

Benchmarki koje AMD prezentira su značajni:

  • Llama-3.3-405B — ubrzanje od 4,80× do 5,21×
  • Llama-3.1-70B — ubrzanje od 2,74×
  • Točnost iznad 99 % u odnosu na izlaz bez spekulativnog dekodiranja

Na Llama-3.3 Instruct benchmarku FLy nadmašuje EAGLE-3, trenutno vodeću metodu koja zahtijeva obuku. To je posebno značajno jer znači da manji tim bez resursa za treniranje draft modela može postići bolje rezultate nego oni koji imaju tu infrastrukturu.

Zašto je ovo važno za AMD ekosustav?

AMD godinama zaostaje za NVIDIA-om u AI softverskom stogu, a ROCm optimizacije ključne su za kompetitivnost. FLy pokazuje da AMD istraživački tim radi na tehnikama specifičnim za njihov hardver — ne samo porting NVIDIA ideja.

Praktično, svatko tko već poslužuje Llama modele na AMD MI300X ili sličnim GPU-ima može dobiti 3-5× ubrzanje bez ponovnog treniranja, bez mijenjanja modela, bez kompromisa u kvaliteti izlaza. Za produkcijske sustave to je direktna ušteda troškova.

Implikacije za open-source inference

FLy je značajan jer spušta barijeru za high-performance inference — više ne trebaš posebno istrenirani draft model da bi postigao state-of-the-art brzinu. Za open-source zajednicu koja hosta modele poput Llame u vlastitoj infrastrukturi, to znači:

  • Lakše eksperimentiranje s velikim modelima (405B postaje dostupan)
  • Manji trošak po upitu u samostalno hostiranim deploymentima
  • Alternativa za timove koji nemaju resurse za EAGLE-style treniranje

Ako metoda bude objavljena kao open-source implementacija unutar ROCm stoga, mogla bi postati standard za AMD inference deployment tijekom 2026.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.