AWS: P-EAGLE paralelno spekulativno dekodiranje ubrzava inferenciju do 3,97×
AWS je predstavio P-EAGLE, metodu paralelnog spekulativnog dekodiranja koja predviđa sve spekulativne tokene u jednom prolazu modela. Na Qwen3-Coder-30B-A3B i NVIDIA B200 u FP8, P-EAGLE postiže 1.167 tokena u sekundi naspram 955 za EAGLE-3 (+22%), a do 3,97× brže od baseline inferencije na HumanEvalu. Predtrenirane P-EAGLE glave dostupne su za GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B i Gemma-4-31B na Amazon SageMaker AI.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
AWS je predstavio P-EAGLE, metodu paralelnog spekulativnog dekodiranja koja znatno ubrzava inferenciju velikih jezičnih modela na Amazon SageMaker AI.
Što je spekulativno dekodiranje i što P-EAGLE mijenja?
Spekulativno dekodiranje je tehnika u kojoj manji “predlagač” generira više tokena unaprijed, a glavni ih model provjerava odjednom umjesto token po token. Klasični EAGLE radi to sekvencijalno. P-EAGLE predviđa sve spekulativne tokene u jednom prolazu modela koristeći naučene rezervirane reprezentacije (placeholdere), čime uklanja sekvencijalno usko grlo.
Koliko je P-EAGLE brži?
Na modelu Qwen3-Coder-30B-A3B, NVIDIA B200 GPU-u i FP8 preciznosti, P-EAGLE postiže 1.167 tokena u sekundi naspram 955 za EAGLE-3 na HumanEvalu — poboljšanje od 22%. U odnosu na baseline od 294 tokena u sekundi, ubrzanje doseže do 3,97× na HumanEvalu i 2,97× na SPEED-Benchu. To su konkretni dobici za zadatke generiranja koda.
Kako se koristi u praksi?
AWS nudi predtrenirane P-EAGLE glave za GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B i Gemma-4-31B, dostupne na Amazon SageMaker AI. Time razvojni timovi mogu ubrzati inferenciju bez vlastitog treniranja predlagača, što je ključno za smanjenje troškova i latencije u produkciji.
Česta pitanja
- Što je spekulativno dekodiranje?
- Tehnika ubrzanja inferencije u kojoj manji model predlaže više tokena odjednom, a glavni ih model provjerava u jednom prolazu.
- Koliko P-EAGLE ubrzava inferenciju?
- Do 3,97× brže od baseline inferencije na HumanEvalu, te +22% u odnosu na EAGLE-3.
- Za koje su modele dostupne P-EAGLE glave?
- Za GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B i Gemma-4-31B na Amazon SageMaker AI.
Povezane vijesti
arXiv:2606.17930: Rezultati benchmarka ovise o protokolu — inference compute mijenja rang frontier modela
Anthropic: Originalni modeli Claude Sonnet 4 i Opus 4 povučeni — migracija na Sonnet 4.6 i Opus 4.8
AWS: Google Gemma 4 modeli dostupni na Amazon Bedrocku — tri varijante uz Apache 2.0 licencu