🟡 🤖 Modeli Objavljeno: · 1 min čitanja ·

AWS: P-EAGLE paralelno spekulativno dekodiranje ubrzava inferenciju do 3,97×

Editorial ilustracija: ubrzano paralelno dekodiranje tokena u AI inferenciji

AWS je predstavio P-EAGLE, metodu paralelnog spekulativnog dekodiranja koja predviđa sve spekulativne tokene u jednom prolazu modela. Na Qwen3-Coder-30B-A3B i NVIDIA B200 u FP8, P-EAGLE postiže 1.167 tokena u sekundi naspram 955 za EAGLE-3 (+22%), a do 3,97× brže od baseline inferencije na HumanEvalu. Predtrenirane P-EAGLE glave dostupne su za GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B i Gemma-4-31B na Amazon SageMaker AI.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

AWS je predstavio P-EAGLE, metodu paralelnog spekulativnog dekodiranja koja znatno ubrzava inferenciju velikih jezičnih modela na Amazon SageMaker AI.

Što je spekulativno dekodiranje i što P-EAGLE mijenja?

Spekulativno dekodiranje je tehnika u kojoj manji “predlagač” generira više tokena unaprijed, a glavni ih model provjerava odjednom umjesto token po token. Klasični EAGLE radi to sekvencijalno. P-EAGLE predviđa sve spekulativne tokene u jednom prolazu modela koristeći naučene rezervirane reprezentacije (placeholdere), čime uklanja sekvencijalno usko grlo.

Koliko je P-EAGLE brži?

Na modelu Qwen3-Coder-30B-A3B, NVIDIA B200 GPU-u i FP8 preciznosti, P-EAGLE postiže 1.167 tokena u sekundi naspram 955 za EAGLE-3 na HumanEvalu — poboljšanje od 22%. U odnosu na baseline od 294 tokena u sekundi, ubrzanje doseže do 3,97× na HumanEvalu i 2,97× na SPEED-Benchu. To su konkretni dobici za zadatke generiranja koda.

Kako se koristi u praksi?

AWS nudi predtrenirane P-EAGLE glave za GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B i Gemma-4-31B, dostupne na Amazon SageMaker AI. Time razvojni timovi mogu ubrzati inferenciju bez vlastitog treniranja predlagača, što je ključno za smanjenje troškova i latencije u produkciji.

Česta pitanja

Što je spekulativno dekodiranje?
Tehnika ubrzanja inferencije u kojoj manji model predlaže više tokena odjednom, a glavni ih model provjerava u jednom prolazu.
Koliko P-EAGLE ubrzava inferenciju?
Do 3,97× brže od baseline inferencije na HumanEvalu, te +22% u odnosu na EAGLE-3.
Za koje su modele dostupne P-EAGLE glave?
Za GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B i Gemma-4-31B na Amazon SageMaker AI.