ONNX v1.21.0 erscheint mit Opset 26: neue CumProd- und BitCast-Operatoren, 2-Bit-Typen-Unterstützung und Python-3.14-Free-Threading-Experiment
Warum es wichtig ist
Die Linux Foundation AI & Data Foundation veröffentlichte am 27. April 2026 ONNX v1.21.0 — es führt Opset 26 mit den Operatoren CumProd und BitCast, Unterstützung für 2-Bit-Typen, experimentelles Python-3.14-Free-Threading sowie Verbesserungen der Integer-Divisionskonsistenz und der Compiler-Sicherheit ein.
Die Linux Foundation AI & Data Foundation veröffentlichte am 27. April 2026 eine neue Hauptversion: ONNX v1.21.0 — ein inkrementelles, aber sinnvolles Update des offenen Standards für den Austausch von Machine-Learning-Modellen. Die bedeutendste Neuerung ist Opset 26, die neue Version des Operatorstandards, die Modellen ermöglicht, “mehr Funktionalität auszudrücken und über ein breiteres Spektrum an Tools und Runtimes betrieben zu werden.”
Hauptergänzungen in Opset 26
Dem Standardkatalog wurden zwei neue Operatoren hinzugefügt:
- CumProd — führt kumulative Multiplikationen über einen Tensor durch. Er ist funktional ähnlich dem bekannten CumSum-Operator, der kumulative Additionen durchführt, verwendet aber Multiplikation statt Addition. Nützlich für probabilistische Modelle, Faktorberechnungen und rekursive Sequenzen.
- BitCast — ermöglicht Neuinterpretation von Daten ohne Kopieren. Der Operator ist analog zur
bit_cast-Funktion in einigen Programmiersprachen — er nimmt dieselbe Bit-Sequenz und behandelt sie als anderen Typ gleicher Größe. Dies ist wichtig für performance-kritische Teile der Pipeline, wo zwischen z. B. float32- und int32-Repräsentationen ohne den Speicher-Overhead des Kopierens gewechselt werden muss.
2-Bit-Unterstützung: Signal für Edge und Mobile
Die architektonisch bedeutendste Änderung ist die Unterstützung für 2-Bit-Datentypen. Modelle, die 2-Bit-Repräsentationen für Gewichte oder Aktivierungen verwenden, ermöglichen:
- dramatisch kleinere Modellgröße — 2-Bit ist 4× kleiner als 8-Bit, 16× kleiner als 32-Bit,
- geringeren Speicherbedarf bei der Ausführung,
- bessere Performance auf Hardware mit begrenzter Speicherbandbreite.
Dies ist besonders relevant für Edge-, Mobil- und Embedded-Systeme, wo 2-Bit-Quantisierung zur Komprimierung großer Modelle immer häufiger eingesetzt wird. Die Standardisierung auf ONNX-Ebene bedeutet, dass Frameworks (PyTorch, TensorFlow, TVM) und Runtimes (ONNX Runtime, Triton) interoperabel mit 2-Bit-Modellen ohne Custom-Konvertierungen arbeiten können.
Weitere Verbesserungen
Weniger sichtbare, aber wichtige Änderungen:
- Integer-Divisionskonsistenz — verschiedene Runtimes haben Edge-Cases (z. B. Division durch null, Division negativer ganzer Zahlen) historisch unterschiedlich behandelt; diese Version vereinheitlicht die Semantik;
- erweiterte Version-Conversion-Helpers — das Upgrade von Legacy-Modellen von älteren Opset-Versionen auf neuere wird erleichtert;
- experimentelle Unterstützung für Python 3.14 Free-Threading — Python 3.14 führt die Option ein, ohne GIL (Global Interpreter Lock) zu arbeiten, und ONNX fügt experimentelle Kompatibilität mit diesem Ausführungsmodell hinzu, was in Multi-threaded-ML-Diensten helfen kann;
- verstärktes Compiler-Hardening — Produktionssicherheits-Verbesserungen, die das Risiko von Memory-Corruption-Bugs im nativen ONNX-C++-Code reduzieren sollen.
Was dies für das Ökosystem bedeutet
Drei praktische Implikationen für Nutzer:
- Auf 2 Bit quantisierte Modelle haben jetzt einen standardisierten Pfad durch den gesamten Stack — vom Training in PyTorch, über die Konvertierung zu ONNX, bis zur Ausführung auf ONNX Runtime. Vor dieser Änderung mussten Nutzer Custom-Erweiterungen erstellen.
- Interoperabilität zwischen Frameworks — CumProd- und BitCast-Operatoren sind in modernen ML-Modellen gängig, wurden aber zuvor oft durch komplexe Kombinationen grundlegender Operatoren emuliert. Die Standardisierung vereinfacht Export und Import.
- Migration-Tool für Legacy-Modelle — erweiterte Version-Conversion-Helpers reduzieren den Betriebsaufwand für das Upgrade älterer Modelle auf neuere Opset-Versionen, was für Organisationen mit großen Portfolios langjährig betriebener Modelle wichtig ist.
Zukünftige Pläne, die LF AI ankündigt
Die Versionsankündigung erwähnt auch mehrere Entwicklungsrichtungen für zukünftige Versionen:
- erweiterte Operatoren für Generative KI — typische Muster wie RoPE, GQA und spezialisierte Attention-Varianten erfordern Operatoren, die ältere Opsets nicht enthielten;
- verbesserte Quantisierungsfähigkeiten — neben 2-Bit wird auch an gemischten Präzisionen gearbeitet;
- neue Arbeitsgruppe für probabilistische Programmierung — Fokus auf Bayesianische Inferenz und Modellierung im ONNX-Rahmen.
Praktische Tipps
Für Teams, die bereits ONNX verwenden:
- Runtime-Kompatibilität prüfen — Opset 26 erfordert ein aktualisiertes ONNX Runtime oder eine andere Engine, die die neuen Operatoren unterstützt;
- mit 2-Bit-Quantisierung experimentieren an Kandidatenmodellen und den Unterschied in Speicher und Präzision messen;
- das Version-Conversion-Tool verfolgen, wenn die Organisation Legacy-Modelle auf Opset 17 oder niedrigeren Versionen hat.
Die vollständigen Release Notes sind im GitHub-Repository des ONNX-Projekts verfügbar, und die Community hält regelmäßige öffentliche Treffen und Umfragen zur Sammlung von Feedback ab. Das Projekt ist unter onnx.ai zu finden.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Quellen
Verwandte Nachrichten
OpenAI veröffentlicht Privacy Filter: 1,5 Mrd. Parameter, Apache-2.0-Lizenz, 128K-Kontext und State-of-the-Art-Erkennung von acht PII-Kategorien in einem Durchlauf
Allen AI: OlmoEarth-Embeddings ermöglichen Landschaftssegmentierung mit nur 60 Pixeln und einem F1-Wert von 0,84
Google DeepMind Decoupled DiLoCo: 20-fach geringere Netzwerkbandbreite für KI-Training über geografisch verteilte Rechenzentren