AWS: P-EAGLE paralleles spekulatives Dekodieren beschleunigt Inferenz um bis zu 3,97×
AWS stellte P-EAGLE vor, eine Methode des parallelen spekulativen Dekodierens, die alle spekulativen Token in einem einzigen Modelldurchlauf vorhersagt. Auf Qwen3-Coder-30B-A3B und NVIDIA B200 in FP8 erreicht P-EAGLE 1.167 Token pro Sekunde gegenüber 955 für EAGLE-3 (+22%) und bis zu 3,97× schneller als die Basis-Inferenz auf HumanEval. Vortrainierte P-EAGLE-Köpfe sind für GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B und Gemma-4-31B auf Amazon SageMaker AI verfügbar.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
AWS stellte P-EAGLE vor, eine Methode des parallelen spekulativen Dekodierens, die die Inferenz großer Sprachmodelle auf Amazon SageMaker AI erheblich beschleunigt.
Was ist spekulatives Dekodieren und was ändert P-EAGLE?
Beim spekulativen Dekodieren generiert ein kleineres Entwurfsmodell mehrere Token im Voraus, und das Hauptmodell überprüft diese alle auf einmal statt Token für Token. Das klassische EAGLE macht dies sequenziell. P-EAGLE sagt alle spekulativen Token in einem einzigen Modelldurchlauf mithilfe erlernter Platzhalter-Repräsentationen voraus und beseitigt damit den sequenziellen Engpass.
Wie viel schneller ist P-EAGLE?
Auf dem Modell Qwen3-Coder-30B-A3B, einem NVIDIA B200 GPU und FP8-Genauigkeit erreicht P-EAGLE 1.167 Token pro Sekunde gegenüber 955 für EAGLE-3 auf HumanEval — eine Verbesserung von 22%. Verglichen mit einem Basiswert von 294 Token pro Sekunde erreicht die Beschleunigung bis zu 3,97× auf HumanEval und 2,97× auf SPEED-Bench. Das sind konkrete Gewinne für Code-Generierungsaufgaben.
Wie wird es in der Praxis eingesetzt?
AWS bietet vortrainierte P-EAGLE-Köpfe für GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B und Gemma-4-31B an, verfügbar auf Amazon SageMaker AI. Damit können Entwicklungsteams die Inferenz beschleunigen, ohne ein eigenes Entwurfsmodell zu trainieren — entscheidend zur Kosten- und Latenzreduzierung in der Produktion.
Häufig gestellte Fragen
- Was ist spekulatives Dekodieren?
- Eine Inferenzbeschleunigungstechnik, bei der ein kleineres Modell mehrere Token auf einmal vorschlägt und das Hauptmodell diese in einem einzigen Durchlauf überprüft.
- Wie sehr beschleunigt P-EAGLE die Inferenz?
- Bis zu 3,97× schneller als die Basis-Inferenz auf HumanEval und +22% gegenüber EAGLE-3.
- Für welche Modelle sind P-EAGLE-Köpfe verfügbar?
- Für GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B und Gemma-4-31B auf Amazon SageMaker AI.
Verwandte Nachrichten
arXiv:2606.17930: Benchmark-Ergebnisse sind protokollabhängig — Inferenz-Compute verändert das Ranking von Frontier-Modellen
Anthropic: Originale Claude Sonnet 4 und Opus 4 Modelle eingestellt — Migration auf Sonnet 4.6 und Opus 4.8
AWS: Google Gemma 4 Modelle auf Amazon Bedrock verfügbar — drei Varianten unter Apache-2.0-Lizenz