AMD EAGLE3: Kimi-K2.5 +33 % schneller auf MI325X

Das AMD ROCm-Team demonstrierte EAGLE3 Speculative Decoding auf 8× Instinct MI325X mit dem Modell Kimi-K2.5 und erzielte einen um 33 % höheren Output-Throughput sowie eine um 58 % geringere mediane Inter-Token-Latenz — ohne Genauigkeitsverlust beim GSM8K-Benchmark.

EAGLE3 bringt Tree-Based Speculative Decoding auf AMD-Hardware

Das AMD ROCm-Team hat Ergebnisse der EAGLE3-Implementierung zur Beschleunigung des Inference-Betriebs auf einem Cluster aus 8× AMD Instinct MI325X-Grafikprozessoren (je 256 GB HBM-Speicher, Architektur gfx942) veröffentlicht. Als Testmodell diente Kimi-K2.5 von Moonshot AI — ein massives Mixture-of-Experts-Modell mit 497 GB Parametern, quantisiert im W4A8-Format (INT4-Gewichte, INT8-Aktivierungen).

Speculative Decoding ist eine Technik, bei der ein kleineres, schnelleres Draft-Modell mehrere mögliche nächste Token vorschlägt und das Hauptmodell diese in einem einzigen Durchlauf parallel verifiziert — anstatt jeden Token einzeln zu berechnen. EAGLE3 erweitert diesen Ansatz um ein baumbasiertes Verfahren: Es schlägt gleichzeitig mehrere Hypothesen als Baum vor, was die Wahrscheinlichkeit erhöht, dass das große Modell eine längere Sequenz ohne Neuberechnung akzeptiert.

Was zeigen die Messungen?

Die Ergebnisse wurden bei einer Gleichzeitigkeit von 40 parallelen Anfragen gemessen:

Output-Throughput: 672 → 895 Tok/s, Anstieg von +33,1 %
Decode-Latenz (TPOT): 42,73 → 27,41 ms, Rückgang um −35,9 %
Mediane Inter-Token-Latenz (ITL): 27,98 → 11,75 ms, Rückgang um −58,0 %

Ohne EAGLE3 wartete jedes Token im Durchschnitt fast 28 ms. Mit EAGLE3 sinkt die Wartezeit auf unter 12 ms — mehr als halbiert. Die Genauigkeit auf dem mathematischen GSM8K-Benchmark bleibt über 0,93, ohne Regression.

Warum ist das für das AMD-Ökosystem bedeutsam?

Das Ergebnis zeigt, dass AMD MI325X nicht nur auf dem Papier eine Alternative zu NVIDIA-Hardware ist, sondern durch Software-Optimierungen im ROCm-Stack konkrete Beschleunigungen für Produktions-MoE-Modelle liefern kann — ohne Hardwarewechsel und ohne Qualitätsverlust.

Häufig gestellte Fragen

Was ist Speculative Decoding, und warum beschleunigt es die Textgenerierung?

Speculative Decoding ist eine Technik, bei der ein kleineres Draft-Modell mehrere mögliche nächste Token vorschlägt und das große Modell diese parallel verifiziert — anstatt jeden Token einzeln zu generieren, wodurch die Wartezeit zwischen den Token sinkt.

Geht die EAGLE3-Beschleunigung auf Kosten der Modellgenauigkeit?

Nein — der GSM8K-Benchmark bleibt über 0,93, was bedeutet, dass Kimi-K2.5 volle Genauigkeit bei deutlich geringerer Latenz beibehält.

AMD ROCm: EAGLE3 Speculative Decoding beschleunigt Kimi-K2.5 um 33 % auf MI325X

EAGLE3 bringt Tree-Based Speculative Decoding auf AMD-Hardware

Was zeigen die Messungen?

Warum ist das für das AMD-Ökosystem bedeutsam?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten