AMD ROCm: EAGLE3 Speculative Decoding beschleunigt Kimi-K2.5 um 33 % auf MI325X
Das AMD ROCm-Team demonstrierte EAGLE3 Speculative Decoding auf 8× Instinct MI325X mit dem Modell Kimi-K2.5 und erzielte einen um 33 % höheren Output-Throughput sowie eine um 58 % geringere mediane Inter-Token-Latenz — ohne Genauigkeitsverlust beim GSM8K-Benchmark.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
EAGLE3 bringt Tree-Based Speculative Decoding auf AMD-Hardware
Das AMD ROCm-Team hat Ergebnisse der EAGLE3-Implementierung zur Beschleunigung des Inference-Betriebs auf einem Cluster aus 8× AMD Instinct MI325X-Grafikprozessoren (je 256 GB HBM-Speicher, Architektur gfx942) veröffentlicht. Als Testmodell diente Kimi-K2.5 von Moonshot AI — ein massives Mixture-of-Experts-Modell mit 497 GB Parametern, quantisiert im W4A8-Format (INT4-Gewichte, INT8-Aktivierungen).
Speculative Decoding ist eine Technik, bei der ein kleineres, schnelleres Draft-Modell mehrere mögliche nächste Token vorschlägt und das Hauptmodell diese in einem einzigen Durchlauf parallel verifiziert — anstatt jeden Token einzeln zu berechnen. EAGLE3 erweitert diesen Ansatz um ein baumbasiertes Verfahren: Es schlägt gleichzeitig mehrere Hypothesen als Baum vor, was die Wahrscheinlichkeit erhöht, dass das große Modell eine längere Sequenz ohne Neuberechnung akzeptiert.
Was zeigen die Messungen?
Die Ergebnisse wurden bei einer Gleichzeitigkeit von 40 parallelen Anfragen gemessen:
- Output-Throughput: 672 → 895 Tok/s, Anstieg von +33,1 %
- Decode-Latenz (TPOT): 42,73 → 27,41 ms, Rückgang um −35,9 %
- Mediane Inter-Token-Latenz (ITL): 27,98 → 11,75 ms, Rückgang um −58,0 %
Ohne EAGLE3 wartete jedes Token im Durchschnitt fast 28 ms. Mit EAGLE3 sinkt die Wartezeit auf unter 12 ms — mehr als halbiert. Die Genauigkeit auf dem mathematischen GSM8K-Benchmark bleibt über 0,93, ohne Regression.
Warum ist das für das AMD-Ökosystem bedeutsam?
Das Ergebnis zeigt, dass AMD MI325X nicht nur auf dem Papier eine Alternative zu NVIDIA-Hardware ist, sondern durch Software-Optimierungen im ROCm-Stack konkrete Beschleunigungen für Produktions-MoE-Modelle liefern kann — ohne Hardwarewechsel und ohne Qualitätsverlust.
Häufig gestellte Fragen
- Was ist Speculative Decoding, und warum beschleunigt es die Textgenerierung?
- Speculative Decoding ist eine Technik, bei der ein kleineres Draft-Modell mehrere mögliche nächste Token vorschlägt und das große Modell diese parallel verifiziert — anstatt jeden Token einzeln zu generieren, wodurch die Wartezeit zwischen den Token sinkt.
- Geht die EAGLE3-Beschleunigung auf Kosten der Modellgenauigkeit?
- Nein — der GSM8K-Benchmark bleibt über 0,93, was bedeutet, dass Kimi-K2.5 volle Genauigkeit bei deutlich geringerer Latenz beibehält.
Verwandte Nachrichten
NVIDIA: CUDA-X-Bibliotheken cuPhoton, DAQIRI und ALCHEMI beschleunigen Astronomie, Chemie und Materialwissenschaft
NVIDIA: JUPITER — Europas erstes Exascale-Supercomputer stellt Wissenschaftsrekorde auf der ISC 2026 auf
NVIDIA: Vera CPU in Los Alamos — 7× schnellere agentische KI für Nuklearwissenschaft und 3 neue Supercomputer