AMD: MXFP4/MXFP6 Mixed-Precision-Quantisierung auf MI355X — bis zu 29% mehr Durchsatz
AMD hat auf dem Instinct MI355X-Beschleuniger die W_MXFP4_A_MXFP6 Mixed-Precision-Quantisierung demonstriert, die bis zu 29% mehr Durchsatz bei nahezu FP8-genauer Präzision liefert und dabei das vLLM-Framework für den Produktionseinsatz nutzt.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
AMD MI355X und die neue Quantisierungsstrategie
AMD hat die Ergebnisse der W_MXFP4_A_MXFP6-Quantisierung veröffentlicht — einer Mixed-Precision-Technik, die 4-Bit-Gewichte und 6-Bit-Aktivierungen im neuronalen Netz kombiniert — auf dem Instinct MI355X KI-Beschleuniger. Ziel ist eine Balance zwischen Inferenzgeschwindigkeit und numerischer Modellgenauigkeit im Produktionsbetrieb mit dem vLLM-Framework.
Wie viel mehr Durchsatz gibt es in der Praxis?
Beim Modell Llama-3.1-8B bringt der W_MXFP4_A_MXFP6-Ansatz +29% Durchsatz im Vergleich zur BF16-Baseline. Beim größeren Qwen3.6-27B-Modell beträgt die Verbesserung +27%. Beide Ergebnisse übertreffen den reinen MXFP4-Ansatz, der unter höherem Genauigkeitsverlust leidet.
Genauigkeit: Kompromiss zwischen Geschwindigkeit und Präzision
Die Präzision bleibt näher am FP8-Standard als bei reinem MXFP4. Beim Llama-3.1-8B GSM8K-Benchmark erzielt Mixed-Precision 76,42% — deutlich besser als reines MXFP4 mit nur 62,55%, jedoch leicht unter FP8 mit 80,44%. Ein ähnliches Muster zeigt Qwen3.6-27B auf dem AIME26-Benchmark: Mixed-Precision 85,8% gegenüber FP8 mit 86,7% und reinem MXFP4, das auf 80,0% abfällt.
Latenz: TTFT sinkt um mehr als eine Sekunde
Der TTFT (Time To First Token — Zeit vom Senden der Anfrage bis zum ersten generierten Token) beim Llama-3.1-8B sinkt von 6.409 ms auf 5.159 ms, eine Verbesserung von rund 1,25 Sekunden. Für Produktionssysteme mit vielen gleichzeitigen Anfragen wirkt sich diese Latenzreduzierung direkt auf die Nutzererfahrung aus.
Fazit: Praxistauglicher Kompromiss für den Produktionseinsatz
W_MXFP4_A_MXFP6 auf dem MI355X positioniert sich als ausgereifte Lösung für die Produktionsinferenz: Durchsatz nahe an reinem MXFP4, Genauigkeit nahe an FP8 — ohne zwischen einem der beiden wählen zu müssen. AMD tritt damit in direkten Wettbewerb zur NVIDIA FP8-Inferenz auf H100/H200-Architekturen und bietet eine Alternative im ROCm-Ökosystem für Unternehmen, die AMD-Hardware bereits nutzen oder eine Abhängigkeit von einem einzigen GPU-Anbieter vermeiden möchten.
Häufig gestellte Fragen
- Was ist Mixed-Precision-Quantisierung und warum ist sie wichtig?
- Mixed-Precision-Quantisierung ist eine Technik zur Komprimierung von KI-Modellen, bei der Gewichte und Aktivierungen im neuronalen Netz in unterschiedlichen numerischen Formaten gespeichert werden — etwa 4-Bit-Gewichte und 6-Bit-Aktivierungen. Dadurch sinkt der Speicherbedarf und die Inferenz beschleunigt sich bei minimalem Genauigkeitsverlust.
- Was ist TTFT und um wie viel hat er sich auf dem MI355X verringert?
- TTFT (Time To First Token) misst die Latenz vom Senden einer Anfrage bis zum Erscheinen des ersten generierten Tokens. Beim Llama-3.1-8B-Modell senkte AMD den TTFT durch den MXFP4/MXFP6-Ansatz von 6.409 ms auf 5.159 ms.
Verwandte Nachrichten
NVIDIA und AWS: EC2 G7-Instanzen mit Blackwell-GPU bringen 4,6× bessere KI-Inferenz
AMD: ATOM-Optimizer — DP Attention und Two-Batch Overlap für DeepSeek-V4 auf MI355X
OpenAI: Jalapeño — eigener ASIC-Chip für LLM-Inferenz, um die Abhängigkeit von NVIDIA zu reduzieren