BWLA: 1-Bit-Quantisierung von Sprachmodellen mit 3,26-facher Beschleunigung und 70 % besseren Ergebnissen (ACL 2026)
BWLA ist ein neues Post-Training-Quantisierungsframework für große Sprachmodelle, das erstmals gleichzeitig 1-Bit-Gewichtspräzision und niedrig-Bit-Aktivierungen ohne signifikanten Genauigkeitsverlust erzielt. Auf dem Modell Qwen3-32B erreicht es eine Perplexität von 11,92 und eine 3,26-fache Beschleunigung gegenüber bisherigen Methoden.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Die Forscher Zhixiong Zhao, Zukang Xu und Dawei Yang haben BWLA (Breaking the Barrier of W1AX) vorgestellt, ein Post-Training-Quantisierungsframework — Reduzierung der Modellgewichtspräzision nach dem Training — das erstmals gleichzeitig 1-Bit-Gewichte und niedrig-Bit-Aktivierungen ohne ernsthaften Genauigkeitsabfall erreicht. Das Paper wurde auf der ACL 2026 (Hauptkonferenz) akzeptiert.
Warum war die 1-Bit-Quantisierung bisher so schwierig?
Bisherige Ansätze zur Binarisierung von Sprachmodellen (Reduzierung der Gewichte auf Werte 0 oder 1) scheiterten an sogenannten Aktivierungen mit schweren Verteilungsenden — Extremwerten, die in Zwischenschichten des Netzwerks auftreten und hohe numerische Präzision erfordern. Ohne Lösung dieses Problems verloren Modelle an Genauigkeit, sobald Aktivierungen unter 8 Bit komprimiert wurden.
Wie löst BWLA dieses Problem?
BWLA führt zwei neue Mechanismen ein. Die Orthogonale-Kronecker-Transformation (OKT) erlernt orthogonale Abbildungen zur Umformung der Gewichtsverteilung und Unterdrückung von Aktivierungsartefakten, wodurch hohe Präzisionsanforderungen entfallen. Die Proximale SVD-Projektion (PSP) führt anschließend Niedrig-Rang-Verfeinerungen mit minimalem Rechenaufwand durch — alles ohne erneutes Training des Modells.
Was zeigen die Ergebnisse?
Auf Qwen3-32B erreicht BWLA eine Perplexität (ein Maß für die Qualität des Sprachmodells — niedriger ist besser) von 11,92, während der bisherige Stand der Technik bei 38 liegt. Zero-Shot-Aufgaben verbesserten sich um mehr als 70 % und die Inferenz beschleunigte sich 3,26-fach. Die Autoren behaupten, dies sei das erste Post-Training-Framework, das W1AX — 1-Bit-Gewichte mit X-Bit-Aktivierungen — praktisch ohne Genauigkeitskompromisse anwendbar macht.
Häufig gestellte Fragen
- Was ist LLM-Quantisierung und warum ist sie wichtig?
- Quantisierung ist eine Technik zur Reduzierung der Gewichtspräzision eines Modells (z. B. von 32 Bit auf 1 Bit), um den Speicherbedarf zu verringern und die Inferenz zu beschleunigen. Sie ist entscheidend für den Betrieb großer Modelle auf ressourcenbeschränkten Geräten.
- Wie löst BWLA das Problem der 'schweren Verteilungsenden' bei Aktivierungen?
- BWLA verwendet eine Orthogonale-Kronecker-Transformation (OKT), die orthogonale Abbildungen erlernt, um die Gewichtsverteilung umzuformen und Aktivierungsartefakte zu unterdrücken, wodurch die Notwendigkeit hoher Aktivierungspräzision entfällt.
- Wie viel besser ist BWLA gegenüber dem bisherigen Stand der Technik?
- Auf Qwen3-32B erreicht BWLA eine Perplexität von 11,92 gegenüber 38 bei früheren Methoden — eine Verbesserung von über 70 % bei Zero-Shot-Aufgaben mit 3,26-facher Inferenzbeschleunigung.
Verwandte Nachrichten
AdaMeZO: Adam-Stil LLM-Fine-Tuning ohne Speicherung von Gradientenmomenten im GPU-Speicher
KellyBench: KI-Agenten verwalten Wett-Bankroll durch die Premier-League-Saison — alle führenden Modelle verloren Geld
Latent-GRPO: Stabile RL-Optimierung für Latent Reasoning — 7,86 Punkte auf GSM8K-Aug und 4,27 Punkte auf AIME bei 3-4× kürzeren Reasoning-Ketten