ONNX v1.21.0 izlazi s Opset 26: novi CumProd i BitCast operatori, podrška za 2-bitne tipove i Python 3.14 free-threading eksperiment
Zašto je bitno
Linux Foundation AI & Data Foundation objavila je 27. travnja 2026. ONNX v1.21.0 — uvodi Opset 26 s operatorima CumProd i BitCast, podršku za 2-bitne tipove, eksperimentalno Python 3.14 free-threading, te poboljšanja konzistentnosti integer dijeljenja i sigurnosti kompajlera.
Linux Foundation AI & Data Foundation objavila je 27. travnja 2026. novu glavnu verziju ONNX v1.21.0 — inkrementalno ali smisleno ažuriranje otvorenog standarda za razmjenu modela strojnog učenja. Najznačajnija novost je Opset 26, nova verzija operatorskog standarda koja modelima omogućuje da “izraze više funkcionalnosti i pokreću se kroz širi niz alata i runtime-ova”.
Glavni dodaci u Opset 26
Dva nova operatora dodana su u standardni katalog:
- CumProd — izvodi kumulativna množenja preko tenzora. Funkcionalno je sličan poznatom CumSum operatoru koji izvodi kumulativna zbrajanja, ali umjesto sume radi proizvod. Korisno je za probabilističke modele, faktorijelske izračune i rekurzivne sekvence.
- BitCast — omogućuje reinterpretaciju podataka bez kopiranja. Operator je analogan
bit_castfunkciji u nekim programskim jezicima — uzima isti niz bitova i tretira ga kao drugi tip iste veličine. To je važno za performance-kritične dijelove pipelajna gdje treba prebacivati između npr. float32 i int32 reprezentacija bez memorijskog overhead-a kopiranja.
2-bitna podrška: signal za edge i mobile
Najistaknutija arhitekturalna promjena je podrška za 2-bitne tipove podataka. Modeli koji koriste 2-bitne reprezentacije težina ili aktivacija omogućavaju:
- dramatično manju veličinu modela — 2-bitno je 4× manje od 8-bita, 16× manje od 32-bita,
- manje memorijsko utiskivanje pri izvođenju,
- bolje performanse na hardveru s ograničenim memory bandwidth-om.
Ovo je posebno relevantno za edge, mobilne i embedded sustave, gdje 2-bitna kvantizacija postaje sve češći izbor za kompresiju velikih modela. Standardizacija na razini ONNX znači da framework-i (PyTorch, TensorFlow, TVM) i runtime-i (ONNX Runtime, Triton) mogu interoperabilno raditi s 2-bitnim modelima bez custom konverzija.
Dodatna poboljšanja
Manje vidljive ali važne izmjene:
- konzistentnost integer dijeljenja — različiti runtime-i su povijesno tretirali rubne slučajeve (npr. dijeljenje s 0, podjelu negativnih cijelih brojeva) različito; ova verzija unifikira semantiku;
- prošireni helper-i za konverziju verzija — olakšava se nadogradnja legacy modela s starijih opset verzija na nove;
- eksperimentalna podrška za Python 3.14 free-threading — Python 3.14 uvodi opciju rada bez GIL-a (Global Interpreter Lock), a ONNX dodaje eksperimentalnu kompatibilnost s tim modelom izvođenja, što može pomoći u višedretvenim ML servisima;
- pojačano hardening kompajlera — production security poboljšanja koja bi trebala smanjiti rizik od memory corruption bug-ova u native ONNX C++ kodu.
Što ovo znači za ekosustav
Tri praktične implikacije za korisnike:
- Modeli kvantizirani na 2 bita sada imaju standardizirani put kroz cijeli stack — od treniranja u PyTorchu, kroz konverziju u ONNX, do izvođenja na ONNX Runtime-u. Prije ovog pomaka, korisnici su morali raditi custom proširenja.
- Interoperabilnost između framework-a — CumProd i BitCast operatori uobičajeni su u modernim ML modelima, ali su prethodno često emulirani kroz složene kombinacije osnovnih operatora. Standardizacija pojednostavnjuje export i import.
- Migration tool za legacy modele — prošireni version conversion helperi smanjuju operativni trošak nadogradnje starih modela na novije opset verzije, što je važno za organizacije s velikim portfolio-ima modela koji rade godinama.
Budući planovi koje LF AI najavljuje
Najava verzije spominje i nekoliko smjerova razvoja za buduće verzije:
- prošireni operatori za generativni AI — tipični obrasci poput RoPE, GQA i specijaliziranih attention varijanti zahtijevaju operatore koje stari opset nije imao;
- poboljšane mogućnosti kvantizacije — uz 2-bitno, očekuje se rad i na mješovitim preciznostima;
- nova radna grupa za probabilističko programiranje — fokus na Bayesian inference i model unutar ONNX okvira.
Praktični savjeti
Za timove koji već koriste ONNX:
- provjeriti kompatibilnost runtime-a — Opset 26 traži ažurirani ONNX Runtime ili drugi engine koji podržava nove operatore;
- eksperimentirati s 2-bitnom kvantizacijom na kandidatskim modelima i mjeriti razliku u memoriji i preciznosti;
- pratiti version conversion alat ako organizacija ima legacy modele na Opset 17 ili nižem.
Pune release notes dostupne su na GitHub repozitoriju ONNX projekta, a zajednica održava redovite javne sastanke i ankete za prikupljanje povratnih informacija. Projekt se nalazi na onnx.ai.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Izvori
Povezane vijesti
OpenAI objavio Privacy Filter: 1.5B parametara, Apache 2.0 licenca, 128K kontekst i state-of-the-art detekcija osmero kategorija PII-a u jednom prolazu
Allen AI: OlmoEarth embeddings omogućuju segmentaciju krajobraza s tek 60 piksela i F1 rezultatom 0,84
Google DeepMind Decoupled DiLoCo: 20× manja mrežna propusnost za AI trening kroz geografski razdvojene datacentre