🟡 🤖 Modelle Veröffentlicht: · 1 Min. Lesezeit ·

AWS: P-EAGLE paralleles spekulatives Dekodieren beschleunigt Inferenz um bis zu 3,97×

Redaktionelle Illustration: beschleunigtes paralleles Token-Dekodieren bei der KI-Inferenz

AWS stellte P-EAGLE vor, eine Methode des parallelen spekulativen Dekodierens, die alle spekulativen Token in einem einzigen Modelldurchlauf vorhersagt. Auf Qwen3-Coder-30B-A3B und NVIDIA B200 in FP8 erreicht P-EAGLE 1.167 Token pro Sekunde gegenüber 955 für EAGLE-3 (+22%) und bis zu 3,97× schneller als die Basis-Inferenz auf HumanEval. Vortrainierte P-EAGLE-Köpfe sind für GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B und Gemma-4-31B auf Amazon SageMaker AI verfügbar.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

AWS stellte P-EAGLE vor, eine Methode des parallelen spekulativen Dekodierens, die die Inferenz großer Sprachmodelle auf Amazon SageMaker AI erheblich beschleunigt.

Was ist spekulatives Dekodieren und was ändert P-EAGLE?

Beim spekulativen Dekodieren generiert ein kleineres Entwurfsmodell mehrere Token im Voraus, und das Hauptmodell überprüft diese alle auf einmal statt Token für Token. Das klassische EAGLE macht dies sequenziell. P-EAGLE sagt alle spekulativen Token in einem einzigen Modelldurchlauf mithilfe erlernter Platzhalter-Repräsentationen voraus und beseitigt damit den sequenziellen Engpass.

Wie viel schneller ist P-EAGLE?

Auf dem Modell Qwen3-Coder-30B-A3B, einem NVIDIA B200 GPU und FP8-Genauigkeit erreicht P-EAGLE 1.167 Token pro Sekunde gegenüber 955 für EAGLE-3 auf HumanEval — eine Verbesserung von 22%. Verglichen mit einem Basiswert von 294 Token pro Sekunde erreicht die Beschleunigung bis zu 3,97× auf HumanEval und 2,97× auf SPEED-Bench. Das sind konkrete Gewinne für Code-Generierungsaufgaben.

Wie wird es in der Praxis eingesetzt?

AWS bietet vortrainierte P-EAGLE-Köpfe für GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B und Gemma-4-31B an, verfügbar auf Amazon SageMaker AI. Damit können Entwicklungsteams die Inferenz beschleunigen, ohne ein eigenes Entwurfsmodell zu trainieren — entscheidend zur Kosten- und Latenzreduzierung in der Produktion.

Häufig gestellte Fragen

Was ist spekulatives Dekodieren?
Eine Inferenzbeschleunigungstechnik, bei der ein kleineres Modell mehrere Token auf einmal vorschlägt und das Hauptmodell diese in einem einzigen Durchlauf überprüft.
Wie sehr beschleunigt P-EAGLE die Inferenz?
Bis zu 3,97× schneller als die Basis-Inferenz auf HumanEval und +22% gegenüber EAGLE-3.
Für welche Modelle sind P-EAGLE-Köpfe verfügbar?
Für GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B und Gemma-4-31B auf Amazon SageMaker AI.