AMD Eagle3 und Quark FP8: Spekulatives Decoding bringt bis zu 2,00x Durchsatz auf MI355X
Das AMD ROCm-Team veröffentlichte am 3. Juli 2026 Details zur Produktionsanwendung von Eagle3 Speculative Decoding auf AMD-Hardware. Die Kombination aus Eagle3-Multi-Layer-Ansatz, vLLM-Backend und AMD Quark FP8-Quantisierung erreicht 1,69x bis 2,00x höheren Durchsatz für Kimi-K2.5 und 1,38x bis 1,79x für MiniMax-M2.5 auf AMD Instinct MI355X — ohne Qualitätsverlust bei der Ausgabe.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Das AMD ROCm-Team veröffentlichte am 3. Juli 2026 einen detaillierten Überblick über den Produktionseinsatz von Eagle3 Speculative Decoding auf AMD-GPU-Beschleunigern. Die Kombination aus Eagle3-Ansatz, vLLM-Inferenz-Framework und dem AMD Quark-Quantisierungswerkzeug erreicht bis zu 2,00× höheren Durchsatz für Kimi-K2.5 auf AMD Instinct MI355X — bei mathematisch garantierter Beibehaltung der Qualität der Ausgabe-Token. Die Arbeit dokumentiert auch die Lösung eines zentralen technischen Hindernisses, das bisher die gleichzeitige Aktivierung von Eagle3 und AITER MLA Attention in vLLM verhinderte.
Wie beschleunigt Eagle3 die Inferenz ohne Qualitätsverlust?
Eagle3 ist eine verlustfreie Technik zur Beschleunigung der Inferenz, die die exakte Ausgabeverteilung des Zielmodells bewahrt. Ein standardmäßiger autoregressiver LLM erzeugt jedes Token einzeln, in sequenziellen Forward Passes, die nicht parallel genutzt werden können. Eagle3 bricht diese Sequenzialität durch ein kleineres Draft-Modell auf: Das Draft-Modell schlägt mehrere Kandidaten-Token gleichzeitig vor, und das Zielmodell verifiziert alle vorgeschlagenen Token in einem gemeinsamen Forward Pass. Vom Zielmodell akzeptierte Token werden in die Ausgabe aufgenommen; abgelehnte Token erzwingen normales Decoding für diese Position. Diese mathematische Garantie bedeutet, dass Eagle3 die Ausgabeverteilung nie verändert — die Beschleunigung wird ausschließlich durch die Reduzierung der Anzahl von Forward Passes des Zielmodells erzielt.
Die zentrale Innovation von Eagle3 gegenüber früheren spekulativen Ansätzen ist das Training des Draft-Modells auf Multi-Layer-Features des Zielmodells. Anstatt dass das Draft-Modell nur die letzte Repräsentationsschicht betrachtet, integriert Eagle3 niedrig-, mittel- und hochstufige semantische Features des Zielmodells. Hohe Ebenen tragen abstrakte Semantik, mittlere Ebenen syntaktische Struktur und niedrige Ebenen lexikalische Muster. Durch die Kombination aller drei Ebenen erreicht das Draft-Modell eine höhere Akzeptanzrate der vorgeschlagenen Token als einfachere Ansätze. Eine höhere Akzeptanzrate führt direkt zu größerer Beschleunigung, da das Zielmodell seltener vollständige Korrektur-Forward-Passes durchführen muss.
Kimi-K2.5 und MiniMax-M2.5 auf AMD Instinct MI355X
Die Produktionsbeschleunigung wurde an zwei Frontier-Modellen auf dem AMD Instinct MI355X GPU mit dem InferenceX-Benchmark-Paket und dem ROCm-Software-Stack gemessen.
Kimi-K2.5 mit MXFP4-Präzision des Zielmodells wurde mit zwei Arten von Eagle3-Draft-Modellen getestet. Das BF16-Eagle3-Draft erreicht einen Durchsatzfaktor von 1,69× bis 1,90× bei 1K/1K-Workloads (1024 Eingabe-Token, 1024 Ausgabe-Token) über Parallelitätsstufen von 4 bis 64 gleichzeitigen Anfragen. Das FP8-Eagle3-Draft, quantisiert mit AMD Quark, übertrifft die BF16-Variante leicht: 1,76× bis 2,00× mit einem Maximum von 2,00× bei Parallelität 4.
MiniMax-M2.5 mit BF16-Eagle3-Draft-Modell erreicht einen Durchsatzfaktor von 1,38× bis 1,79× über dieselben Parallelitätsstufen auf derselben MI355X-Hardware. Die Beschleunigung steigt bei niedrigeren Parallelitätsstufen, was konsistent mit dem theoretischen Verhalten von Speculative Decoding ist: Bei geringerer Parallelität bringt die Batch-Verifizierung relativ größere Einsparungen als Forward-Pass-Kosten.
AMD Quark und die Lösung der KV-Cache-Inkompatibilität
Der zentrale Beitrag dieser Arbeit ist nicht nur die Anwendung von Eagle3 auf AMD-Hardware — sondern auch die Lösung eines grundlegenden technischen Hindernisses. Der vLLM-AITER-MLA-Backend und Eagle3 Speculative Decoding wiesen eine KV-Cache-Blockgrößen-Inkompatibilität auf, die deren gleichzeitige Aktivierung ohne Leistungseinbußen verhinderte. AITER MLA bringt Attention-Effizienz bei langen Kontexten, Eagle3 beschleunigt die sequenzielle Token-Generierung — die Kombination ist theoretisch ideal, war aber technisch blockiert.
AMDs Ingenieure lösten diese Inkompatibilität und ermöglichten damit, dass beide Optimierungen ohne Kompromisse in der Konfiguration zusammenarbeiten. Die Produktionskonfiguration verwendet den ROCm-Stack, vLLM mit AITER-MLA-Backend und Eagle3-Draft-Modell ohne jegliche Workarounds.
Mit dem AMD Quark-Quantisierungswerkzeug wurde das Draft-Modell Kimi-K2.5 Eagle3 auf FP8-Präzision quantisiert, wobei der LM-Head für Stabilität in höherer Präzision verbleibt. Das FP8-Draft-Modell belegt nicht nur weniger GPU-Speicher, sondern übertrifft in Messungen die BF16-Variante minimal. Dieser Befund deutet darauf hin, dass das Quantisierungsrauschen des FP8-Draft-Modells in diesem Kontext die Token-Akzeptanzrate nicht beeinträchtigt — oder statistisch neutral für die gegebenen Modelle und Workloads ist. Die Ziel-Hardware für alle Produktionskonfigurationen sind AMD Instinct MI350X- und MI355X-Beschleuniger. Die Arbeit zeigt, dass die Kombination aus Eagle3 und FP8-Quantisierung kein Kompromiss zwischen Geschwindigkeit und Qualität ist, sondern eine gleichzeitige Verbesserung auf beiden Fronten: Ein kleinerer Speicher-Footprint des Draft-Modells lässt mehr HBM-Kapazität für das Zielmodell, während Speculative Decoding die Gesamtzahl teurer Forward Passes pro generiertem Token reduziert.
Häufig gestellte Fragen
- Wie beschleunigt Eagle3 die Inferenz ohne Qualitätseinbußen?
- Eagle3 verwendet ein kleineres Draft-Modell, das mehrere Kandidaten-Token gleichzeitig vorschlägt. Das Zielmodell verifiziert alle vorgeschlagenen Token in einem einzigen Forward Pass. Abgelehnte Token erzwingen normales Decoding, sodass die Ausgabeverteilung mathematisch identisch mit dem Original bleibt — kein Qualitätsverlust.
- Was bringt AMD Quark für Eagle3?
- AMD Quark quantisierte das Draft-Modell Kimi-K2.5 auf FP8-Präzision, wobei der LM-Head in höherer Präzision verbleibt. Das FP8-Draft-Modell belegt weniger GPU-Speicher und übertrifft in Messungen leicht die BF16-Variante, mit einem maximalen Durchsatz von 2,00x auf MI355X.
- Bei welchen Modellen und auf welcher Hardware wurde die Beschleunigung demonstriert?
- Kimi-K2.5 (MXFP4-Ziel) erreicht 1,69x bis 2,00x Durchsatz, MiniMax-M2.5 (BF16) erreicht 1,38x bis 1,79x — alles gemessen auf AMD Instinct MI355X mit ROCm-Stack und vLLM-Backend mit AITER MLA Attention.
Verwandte Nachrichten
AMD AgentKernelArena: offener Benchmark für KI-Agenten zur GPU-Kernel-Optimierung
AMD ROCm: GPU-residente YOLO26-Pipeline hält Video-Frames von der Dekodierung bis zur Erkennung im VRAM
NVIDIA: Software-Stack auf Blackwell senkt Token-Kosten für DeepSeek V4 in einem Monat um das Fünffache