AMD MI355X: +29% Durchsatz mit MXFP4/MXFP6

AMD hat auf dem Instinct MI355X-Beschleuniger die W_MXFP4_A_MXFP6 Mixed-Precision-Quantisierung demonstriert, die bis zu 29% mehr Durchsatz bei nahezu FP8-genauer Präzision liefert und dabei das vLLM-Framework für den Produktionseinsatz nutzt.

AMD MI355X und die neue Quantisierungsstrategie

AMD hat die Ergebnisse der W_MXFP4_A_MXFP6-Quantisierung veröffentlicht — einer Mixed-Precision-Technik, die 4-Bit-Gewichte und 6-Bit-Aktivierungen im neuronalen Netz kombiniert — auf dem Instinct MI355X KI-Beschleuniger. Ziel ist eine Balance zwischen Inferenzgeschwindigkeit und numerischer Modellgenauigkeit im Produktionsbetrieb mit dem vLLM-Framework.

Wie viel mehr Durchsatz gibt es in der Praxis?

Beim Modell Llama-3.1-8B bringt der W_MXFP4_A_MXFP6-Ansatz +29% Durchsatz im Vergleich zur BF16-Baseline. Beim größeren Qwen3.6-27B-Modell beträgt die Verbesserung +27%. Beide Ergebnisse übertreffen den reinen MXFP4-Ansatz, der unter höherem Genauigkeitsverlust leidet.

Genauigkeit: Kompromiss zwischen Geschwindigkeit und Präzision

Die Präzision bleibt näher am FP8-Standard als bei reinem MXFP4. Beim Llama-3.1-8B GSM8K-Benchmark erzielt Mixed-Precision 76,42% — deutlich besser als reines MXFP4 mit nur 62,55%, jedoch leicht unter FP8 mit 80,44%. Ein ähnliches Muster zeigt Qwen3.6-27B auf dem AIME26-Benchmark: Mixed-Precision 85,8% gegenüber FP8 mit 86,7% und reinem MXFP4, das auf 80,0% abfällt.

Latenz: TTFT sinkt um mehr als eine Sekunde

Der TTFT (Time To First Token — Zeit vom Senden der Anfrage bis zum ersten generierten Token) beim Llama-3.1-8B sinkt von 6.409 ms auf 5.159 ms, eine Verbesserung von rund 1,25 Sekunden. Für Produktionssysteme mit vielen gleichzeitigen Anfragen wirkt sich diese Latenzreduzierung direkt auf die Nutzererfahrung aus.

Fazit: Praxistauglicher Kompromiss für den Produktionseinsatz

W_MXFP4_A_MXFP6 auf dem MI355X positioniert sich als ausgereifte Lösung für die Produktionsinferenz: Durchsatz nahe an reinem MXFP4, Genauigkeit nahe an FP8 — ohne zwischen einem der beiden wählen zu müssen. AMD tritt damit in direkten Wettbewerb zur NVIDIA FP8-Inferenz auf H100/H200-Architekturen und bietet eine Alternative im ROCm-Ökosystem für Unternehmen, die AMD-Hardware bereits nutzen oder eine Abhängigkeit von einem einzigen GPU-Anbieter vermeiden möchten.

Häufig gestellte Fragen

Was ist Mixed-Precision-Quantisierung und warum ist sie wichtig?

Mixed-Precision-Quantisierung ist eine Technik zur Komprimierung von KI-Modellen, bei der Gewichte und Aktivierungen im neuronalen Netz in unterschiedlichen numerischen Formaten gespeichert werden — etwa 4-Bit-Gewichte und 6-Bit-Aktivierungen. Dadurch sinkt der Speicherbedarf und die Inferenz beschleunigt sich bei minimalem Genauigkeitsverlust.

Was ist TTFT und um wie viel hat er sich auf dem MI355X verringert?

TTFT (Time To First Token) misst die Latenz vom Senden einer Anfrage bis zum Erscheinen des ersten generierten Tokens. Beim Llama-3.1-8B-Modell senkte AMD den TTFT durch den MXFP4/MXFP6-Ansatz von 6.409 ms auf 5.159 ms.

AMD: MXFP4/MXFP6 Mixed-Precision-Quantisierung auf MI355X — bis zu 29% mehr Durchsatz