ONNX v1.22.0 bringt native Attention-Operatoren für LLMs und WebAssembly-Unterstützung
Die LF AI & Data Foundation hat ONNX v1.22.0 mit nativen Attention-Operatoren für Transformer-Architekturen und LLMs, WebAssembly-Unterstützung zur Modellvorschau im Browser sowie SLSA-Level-2-kryptografischen Attestierungen veröffentlicht. 27 Mitwirkende haben beigetragen, davon 16 zum ersten Mal.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Die LF AI & Data Foundation hat am 30. Juni 2026 ONNX v1.22.0 veröffentlicht — eine neue Version des offenen Standards für den Austausch von KI-Modellen zwischen Frameworks und Hardware-Runtimes. Dieses Release bringt drei wichtige Neuerungen: native Unterstützung für Attention-Operatoren, WebAssembly-Integration zur Modellvorschau im Browser und verbesserte Lieferkettensicherheit.
Native Attention-Operatoren für moderne LLMs
Die wichtigste technische Änderung in ONNX v1.22.0 sind native Attention-Operatoren — primitive Operatoren, die die Aufmerksamkeitsmechanismen, die in Transformer-Architekturen und LLMs verwendet werden, direkt beschreiben. Bisher wurden Attention-Schichten in ONNX-Modellen als Kompositionen niedrigerer Operatoren ausgedrückt — Matrixmultiplikation, Softmax und Reshape-Operationen — was es Hardware-Runtimes erschwerte, spezialisierte Optimierungen vorzunehmen.
Mit den neuen Operatoren können Hardware-Anbieter Kernel implementieren, die auf Attention-Mechanismen zugeschnitten sind, und so den Durchsatz für lange Sequenzen und Streaming-Anwendungen direkt verbessern. Dies ist besonders relevant für LLMs mit Kontextfenstern von Hunderttausenden von Token, bei denen die Attention-Berechnung die Gesamtinferenzkosten dominiert.
Warum ist Interoperabilität für generative KI entscheidend?
ONNX existiert, damit ein in einem Framework trainiertes Modell in einem anderen laufen kann — ohne erneutes Training oder manuelle Konvertierung. Ein PyTorch-Modell wird zu einem ONNX-Record, und dann können es Runtimes auf der CPU (Intel OpenVINO), GPU (NVIDIA TensorRT), mobilen Chips (Qualcomm QNN) oder spezialisierten Beschleunigern ausführen — ohne Änderungen am Modell.
Bis zu dieser Version hatten Attention-Schichten keine native Darstellung in ONNX. Das war eine strukturelle Lücke zwischen der Art, wie moderne LLMs intern beschrieben werden, und der Art, wie das ONNX-Schema sie ausdrücken kann. Ohne native Attention-Operatoren konnte die Runtime das Muster nicht erkennen und den spezialisierten Hardware-Pfad nutzen — sie musste Attention als eine Reihe generischer Operationen verarbeiten.
ONNX v1.22.0 schließt diese Lücke. Moderne Transformer-Architekturen sind jetzt vollwertige Bürger des ONNX-Ökosystems, was bedeutet, dass Frameworks wie PyTorch, TensorFlow und scikit-learn LLMs im ONNX-Format ausdrücken können, ohne Informationen über die wichtigsten Rechenmuster zu verlieren.
WebAssembly und Lieferkettensicherheit
Version 1.22.0 führt WebAssembly-Unterstützung über Pyodide-Integration ein. ONNX-Modelle können jetzt direkt im Browser vorschaut und validiert werden, ohne lokale Python- oder ONNX-Bibliotheksinstallation. Tools zur Inspektion des Modellgraphen, Verifikation der Shape-Inferenz und Überprüfung der Operatorkompatibilität sind für jeden mit einer URL zugänglich — ohne Einrichtung einer Entwicklungsumgebung.
Auf der Sicherheitsseite trägt jedes ONNX-Release ab dieser Version SLSA-Level-2-kryptografische Attestierungen über den Code-Ursprung — einen reproduzierbaren und verifizierten Nachweis darüber, wo und wie das Artefakt erstellt wurde. Darüber hinaus enthält jedes Paket jetzt eine eingebettete SBOM (Software Bill of Materials), die alle Abhängigkeiten, Versionen und Lizenzen auflistet. Dies ist eine direkte Antwort auf wachsende regulatorische und geschäftliche Anforderungen an die Transparenz von Lieferketten im Open-Source-KI-Tooling.
Das modernisierte Build-System stellt reproduzierbare Builds auf allen drei Plattformen sicher: Linux, macOS und Windows. Für Teams, die CI/CD-Pipelines mit ONNX-Konvertierungen automatisieren, bedeutet die Reproduzierbarkeit von Builds vorhersagbare Ergebnisse ohne Abhängigkeit vom Zustand der Build-Umgebung.
Community, Korrekturen und Roadmap
ONNX v1.22.0 vereinte 27 Mitwirkende, von denen 16 zum ersten Mal beitrugen. Shape-Inference-Hilfsfunktionen und der Version-Converter, den Frameworks bei der Konvertierung von Modellen zwischen ONNX-Opset-Versionen verwenden, wurden verbessert. Neben Attention-Operatoren wurde die Korrektheit mehrerer Schlüsseloperatoren für einen breiteren Eingangsbereich verbessert, was Unterschiede zwischen Spezifikation und tatsächlichem Verhalten bei Randfällen verringert.
Die Roadmap für zukünftige Versionen kündigt Unterstützung für probabilistische und bayesianische Inferenz, erweiterte Quantisierung und weitere Verbesserungen der Shape-Inferenz an.
ONNX v1.22.0 ist im GitHub-Repository github.com/onnx/onnx und über Standard-Paketmanager verfügbar.
Häufig gestellte Fragen
- Was sind Attention-Operatoren in ONNX v1.22.0?
- Das sind native Operatoren, die Aufmerksamkeitsmechanismen in Transformer-Architekturen und LLMs direkt beschreiben und Hardware-Runtimes spezialisierte Optimierungen für lange Sequenzen und Streaming-Anwendungen ermöglichen.
- Wie verbessert ONNX v1.22.0 die Sicherheit der Lieferkette?
- Jedes Release enthält nun SLSA-Level-2-kryptografische Attestierungen über den Code-Ursprung und eine eingebettete Software-Bill-of-Materials, die alle Abhängigkeiten, Versionen und Lizenzen auflistet.
- Was bringt die WebAssembly-Unterstützung in ONNX?
- ONNX-Modelle können jetzt direkt im Browser vorschaut und validiert werden, ohne lokale Installation, dank der Integration mit Pyodide.
Verwandte Nachrichten
CNCF Kepler von Grund auf neu gebaut: präzise Energiemessung von Kubernetes-Pods ohne Kernel-Privilegien
Miles: PyTorch-natives Open-Source-Framework für RL-Post-Training von LLMs im Frontier-Maßstab
NVIDIA: Palantir und NVIDIA Nemotron bringen souveräne KI für US-Behörden in Air-Gapped-Systemen