vLLM: AutoRound-Quantisierung kommt in vLLM-Omni für kleinere multimodale Modelle
vLLM hat Intels AutoRound-Quantisierung in vLLM-Omni integriert und ermöglicht damit die W4A16-Kompression multimodaler und Diffusionsmodelle. Das Ergebnis ist ein bis zu 62 Prozent kleinerer Checkpoint, bei minimalem Qualitätsverlust und schnellerer Generierung auf Intel-XPU- und NVIDIA-Grafikkarten.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Das Projekt vLLM, eine der am weitesten verbreiteten quelloffenen Engines zum Bereitstellen großer Sprachmodelle, hat die Integration von Intels AutoRound-Quantisierung in seinen multimodalen Zweig vLLM-Omni angekündigt. Ziel ist es, große multimodale und Diffusionsmodelle klein genug zu machen, dass sie auf eine einzige Grafikkarte passen, ohne spürbaren Qualitätsverlust.
Was bringt AutoRound?
AutoRound ist eine Methode der Quantisierung nach dem Training (post-training quantization) — ein Verfahren, das ein bereits trainiertes Modell auf eine geringere Bitpräzision komprimiert. Konkret ermöglicht es den W4A16-Modus, bei dem die Gewichte des Modells in nur 4 Bit und die Aktivierungen in 16 Bit gehalten werden. AutoRound optimiert dabei zugleich das Runden und Abschneiden von Werten über drei Parameter, die es pro Tensor lernt, und hält so die Quantisierungsfehler unter Kontrolle.
Wie stark werden die Modelle tatsächlich kleiner?
Das eindrucksvollste Beispiel ist das Modell Qwen3-Omni-30B-A3B, dessen Checkpoint von 66 GB auf 25 GB sinkt — was einer Reduktion von etwa 62 Prozent entspricht. Die praktische Folge ist wichtiger als die Zahl: Die Mindesthardwareanforderung sinkt von vier Grafikkarten auf nur eine. Damit werden multimodale Modelle auch Nutzern mit bescheidenerer Ausstattung zugänglich.
Leidet die Qualität, und wie viel schneller ist es?
Der Qualitätsverlust blieb überraschend gering. Bei der Bildgenerierung aus Text wurde nur etwa 1,3 Prozent Abweichung verzeichnet, während die W4A16-Variante im OmniBench-Benchmark sogar geringfügig besser als die BF16-Referenz war. Bei der Geschwindigkeit bringt die Parallelisierung CFG Parallel eine 1,55- bis 1,67-fach schnellere geführte Generierung gegenüber der sequenziellen BF16-Basis. Die Unterstützung umfasst Intel XPU (B60) und NVIDIA-Grafikkarten.
Häufig gestellte Fragen
- Was bedeutet W4A16-Quantisierung?
- Die Gewichte des Modells werden in 4 Bit gespeichert, während die Aktivierungen in 16 Bit bleiben. Dadurch wird die Größe des Modells drastisch reduziert, wobei die Präzision während der Berechnung erhalten bleibt.
- Wie stark wird das Modell kleiner?
- Bei Qwen3-Omni-30B-A3B sinkt der Checkpoint von 66 GB auf 25 GB, was bis zu 62 Prozent weniger Platz für große Omni-Modelle bedeutet.
Quellen
Verwandte Nachrichten
arXiv:2606.20517: Multi-LCB erweitert LiveCodeBench auf 12 Programmiersprachen und deckt Python-Overfitting bei 24 Modellen auf
UK AISI: Engineering Playbook öffnet Frontier-Modell-Evaluierungsinfrastruktur in fünf Schichten
Black Forest Labs: Robin Rombach fordert G7-Führer auf, offene KI-Entwicklung zu unterstützen