Was ist ONNX und warum ist es wichtig?

ONNX (Open Neural Network Exchange) ist ein offener Standard zur Repräsentation von Machine-Learning-Modellen, der die Portabilität zwischen Frameworks wie PyTorch, TensorFlow und Runtime-Engines ermöglicht. Version 1.21.0 hebt den Opset-Standard auf 26.

Was bringt die 2-Bit-Unterstützung?

Modelle können ultra-kompakte 2-Bit-Repräsentationen für Gewichte und Aktivierungen nutzen, was die Modellgröße und den Speicherbedarf erheblich reduziert. Besonders nützlich für Edge-, Mobil- und Embedded-Anwendungen, wo Ressourcen begrenzt sind.

Was ist der Unterschied zwischen CumProd- und BitCast-Operatoren?

CumProd führt kumulative Multiplikationen über einen Tensor durch — ähnlich den bekannten CumSum-Operationen, aber mit Multiplikation. BitCast ermöglicht die Neuinterpretation von Daten ohne Kopieren, eine effiziente Operation für Konvertierungen zwischen Typen mit gleichem Größen-Footprint.

Was bedeutet „Python 3.14 Free-Threading” in diesem Kontext?

Python 3.14 hat experimentell die Option eingeführt, ohne den Global Interpreter Lock (GIL) zu arbeiten. ONNX v1.21.0 fügt experimentelle Unterstützung für diesen Ausführungsmodus hinzu, was die Parallelität in Multi-threaded-ML-Pipelines verbessern kann.

ONNX v1.21.0: Opset 26, CumProd, BitCast und 2-Bit-Typen

Die Linux Foundation AI & Data Foundation veröffentlichte am 27. April 2026 eine neue Hauptversion: ONNX v1.21.0 — ein inkrementelles, aber sinnvolles Update des offenen Standards für den Austausch von Machine-Learning-Modellen. Die bedeutendste Neuerung ist Opset 26, die neue Version des Operatorstandards, die Modellen ermöglicht, “mehr Funktionalität auszudrücken und über ein breiteres Spektrum an Tools und Runtimes betrieben zu werden.”

Hauptergänzungen in Opset 26

Dem Standardkatalog wurden zwei neue Operatoren hinzugefügt:

CumProd — führt kumulative Multiplikationen über einen Tensor durch. Er ist funktional ähnlich dem bekannten CumSum-Operator, der kumulative Additionen durchführt, verwendet aber Multiplikation statt Addition. Nützlich für probabilistische Modelle, Faktorberechnungen und rekursive Sequenzen.
BitCast — ermöglicht Neuinterpretation von Daten ohne Kopieren. Der Operator ist analog zur bit_cast-Funktion in einigen Programmiersprachen — er nimmt dieselbe Bit-Sequenz und behandelt sie als anderen Typ gleicher Größe. Dies ist wichtig für performance-kritische Teile der Pipeline, wo zwischen z. B. float32- und int32-Repräsentationen ohne den Speicher-Overhead des Kopierens gewechselt werden muss.

2-Bit-Unterstützung: Signal für Edge und Mobile

Die architektonisch bedeutendste Änderung ist die Unterstützung für 2-Bit-Datentypen. Modelle, die 2-Bit-Repräsentationen für Gewichte oder Aktivierungen verwenden, ermöglichen:

dramatisch kleinere Modellgröße — 2-Bit ist 4× kleiner als 8-Bit, 16× kleiner als 32-Bit,
geringeren Speicherbedarf bei der Ausführung,
bessere Performance auf Hardware mit begrenzter Speicherbandbreite.

Dies ist besonders relevant für Edge-, Mobil- und Embedded-Systeme, wo 2-Bit-Quantisierung zur Komprimierung großer Modelle immer häufiger eingesetzt wird. Die Standardisierung auf ONNX-Ebene bedeutet, dass Frameworks (PyTorch, TensorFlow, TVM) und Runtimes (ONNX Runtime, Triton) interoperabel mit 2-Bit-Modellen ohne Custom-Konvertierungen arbeiten können.

Weitere Verbesserungen

Weniger sichtbare, aber wichtige Änderungen:

Integer-Divisionskonsistenz — verschiedene Runtimes haben Edge-Cases (z. B. Division durch null, Division negativer ganzer Zahlen) historisch unterschiedlich behandelt; diese Version vereinheitlicht die Semantik;
erweiterte Version-Conversion-Helpers — das Upgrade von Legacy-Modellen von älteren Opset-Versionen auf neuere wird erleichtert;
experimentelle Unterstützung für Python 3.14 Free-Threading — Python 3.14 führt die Option ein, ohne GIL (Global Interpreter Lock) zu arbeiten, und ONNX fügt experimentelle Kompatibilität mit diesem Ausführungsmodell hinzu, was in Multi-threaded-ML-Diensten helfen kann;
verstärktes Compiler-Hardening — Produktionssicherheits-Verbesserungen, die das Risiko von Memory-Corruption-Bugs im nativen ONNX-C++-Code reduzieren sollen.

Was dies für das Ökosystem bedeutet

Drei praktische Implikationen für Nutzer:

Auf 2 Bit quantisierte Modelle haben jetzt einen standardisierten Pfad durch den gesamten Stack — vom Training in PyTorch, über die Konvertierung zu ONNX, bis zur Ausführung auf ONNX Runtime. Vor dieser Änderung mussten Nutzer Custom-Erweiterungen erstellen.
Interoperabilität zwischen Frameworks — CumProd- und BitCast-Operatoren sind in modernen ML-Modellen gängig, wurden aber zuvor oft durch komplexe Kombinationen grundlegender Operatoren emuliert. Die Standardisierung vereinfacht Export und Import.
Migration-Tool für Legacy-Modelle — erweiterte Version-Conversion-Helpers reduzieren den Betriebsaufwand für das Upgrade älterer Modelle auf neuere Opset-Versionen, was für Organisationen mit großen Portfolios langjährig betriebener Modelle wichtig ist.

Zukünftige Pläne, die LF AI ankündigt

Die Versionsankündigung erwähnt auch mehrere Entwicklungsrichtungen für zukünftige Versionen:

erweiterte Operatoren für Generative KI — typische Muster wie RoPE, GQA und spezialisierte Attention-Varianten erfordern Operatoren, die ältere Opsets nicht enthielten;
verbesserte Quantisierungsfähigkeiten — neben 2-Bit wird auch an gemischten Präzisionen gearbeitet;
neue Arbeitsgruppe für probabilistische Programmierung — Fokus auf Bayesianische Inferenz und Modellierung im ONNX-Rahmen.

Praktische Tipps

Für Teams, die bereits ONNX verwenden:

Runtime-Kompatibilität prüfen — Opset 26 erfordert ein aktualisiertes ONNX Runtime oder eine andere Engine, die die neuen Operatoren unterstützt;
mit 2-Bit-Quantisierung experimentieren an Kandidatenmodellen und den Unterschied in Speicher und Präzision messen;
das Version-Conversion-Tool verfolgen, wenn die Organisation Legacy-Modelle auf Opset 17 oder niedrigeren Versionen hat.

Die vollständigen Release Notes sind im GitHub-Repository des ONNX-Projekts verfügbar, und die Community hält regelmäßige öffentliche Treffen und Umfragen zur Sammlung von Feedback ab. Das Projekt ist unter onnx.ai zu finden.

ONNX v1.21.0 erscheint mit Opset 26: neue CumProd- und BitCast-Operatoren, 2-Bit-Typen-Unterstützung und Python-3.14-Free-Threading-Experiment