Što je ONNX i zašto je važan?

ONNX (Open Neural Network Exchange) je otvoreni standard za reprezentaciju strojnih modela koji omogućuje portabilnost između framework-a poput PyTorcha, TensorFlow-a i runtime engine-a. Verzija 1.21.0 podiže Opset standard na 26.

Što donosi 2-bitna podrška?

Modeli mogu koristiti ultra-kompaktne 2-bitne reprezentacije težina i aktivacija, što značajno smanjuje veličinu modela i memorijske zahtjeve. Posebno je korisno za edge, mobilne i embedded primjene gdje su resursi ograničeni.

Koja je razlika između CumProd i BitCast operatora?

CumProd izvodi kumulativna množenja preko tenzora — slično poznatim CumSum operacijama, ali s množenjem. BitCast omogućuje reinterpretaciju podataka bez kopiranja, što je efikasna operacija za pretvorbe između tipova istog veličinskog footprinta.

Što znači 'Python 3.14 free-threading' u ovom kontekstu?

Python 3.14 je u eksperimentalnoj fazi uveo opciju za rad bez Global Interpreter Lock-a (GIL). ONNX v1.21.0 dodaje eksperimentalnu podršku za taj način rada, što može poboljšati paralelnost u višedretvenim ML pipelajnima.

ONNX v1.21.0: Opset 26, CumProd, BitCast i 2-bitni tipovi

Linux Foundation AI & Data Foundation objavila je 27. travnja 2026. novu glavnu verziju ONNX v1.21.0 — inkrementalno ali smisleno ažuriranje otvorenog standarda za razmjenu modela strojnog učenja. Najznačajnija novost je Opset 26, nova verzija operatorskog standarda koja modelima omogućuje da “izraze više funkcionalnosti i pokreću se kroz širi niz alata i runtime-ova”.

Glavni dodaci u Opset 26

Dva nova operatora dodana su u standardni katalog:

CumProd — izvodi kumulativna množenja preko tenzora. Funkcionalno je sličan poznatom CumSum operatoru koji izvodi kumulativna zbrajanja, ali umjesto sume radi proizvod. Korisno je za probabilističke modele, faktorijelske izračune i rekurzivne sekvence.
BitCast — omogućuje reinterpretaciju podataka bez kopiranja. Operator je analogan bit_cast funkciji u nekim programskim jezicima — uzima isti niz bitova i tretira ga kao drugi tip iste veličine. To je važno za performance-kritične dijelove pipelajna gdje treba prebacivati između npr. float32 i int32 reprezentacija bez memorijskog overhead-a kopiranja.

2-bitna podrška: signal za edge i mobile

Najistaknutija arhitekturalna promjena je podrška za 2-bitne tipove podataka. Modeli koji koriste 2-bitne reprezentacije težina ili aktivacija omogućavaju:

dramatično manju veličinu modela — 2-bitno je 4× manje od 8-bita, 16× manje od 32-bita,
manje memorijsko utiskivanje pri izvođenju,
bolje performanse na hardveru s ograničenim memory bandwidth-om.

Ovo je posebno relevantno za edge, mobilne i embedded sustave, gdje 2-bitna kvantizacija postaje sve češći izbor za kompresiju velikih modela. Standardizacija na razini ONNX znači da framework-i (PyTorch, TensorFlow, TVM) i runtime-i (ONNX Runtime, Triton) mogu interoperabilno raditi s 2-bitnim modelima bez custom konverzija.

Dodatna poboljšanja

Manje vidljive ali važne izmjene:

konzistentnost integer dijeljenja — različiti runtime-i su povijesno tretirali rubne slučajeve (npr. dijeljenje s 0, podjelu negativnih cijelih brojeva) različito; ova verzija unifikira semantiku;
prošireni helper-i za konverziju verzija — olakšava se nadogradnja legacy modela s starijih opset verzija na nove;
eksperimentalna podrška za Python 3.14 free-threading — Python 3.14 uvodi opciju rada bez GIL-a (Global Interpreter Lock), a ONNX dodaje eksperimentalnu kompatibilnost s tim modelom izvođenja, što može pomoći u višedretvenim ML servisima;
pojačano hardening kompajlera — production security poboljšanja koja bi trebala smanjiti rizik od memory corruption bug-ova u native ONNX C++ kodu.

Što ovo znači za ekosustav

Tri praktične implikacije za korisnike:

Modeli kvantizirani na 2 bita sada imaju standardizirani put kroz cijeli stack — od treniranja u PyTorchu, kroz konverziju u ONNX, do izvođenja na ONNX Runtime-u. Prije ovog pomaka, korisnici su morali raditi custom proširenja.
Interoperabilnost između framework-a — CumProd i BitCast operatori uobičajeni su u modernim ML modelima, ali su prethodno često emulirani kroz složene kombinacije osnovnih operatora. Standardizacija pojednostavnjuje export i import.
Migration tool za legacy modele — prošireni version conversion helperi smanjuju operativni trošak nadogradnje starih modela na novije opset verzije, što je važno za organizacije s velikim portfolio-ima modela koji rade godinama.

Budući planovi koje LF AI najavljuje

Najava verzije spominje i nekoliko smjerova razvoja za buduće verzije:

prošireni operatori za generativni AI — tipični obrasci poput RoPE, GQA i specijaliziranih attention varijanti zahtijevaju operatore koje stari opset nije imao;
poboljšane mogućnosti kvantizacije — uz 2-bitno, očekuje se rad i na mješovitim preciznostima;
nova radna grupa za probabilističko programiranje — fokus na Bayesian inference i model unutar ONNX okvira.

Praktični savjeti

Za timove koji već koriste ONNX:

provjeriti kompatibilnost runtime-a — Opset 26 traži ažurirani ONNX Runtime ili drugi engine koji podržava nove operatore;
eksperimentirati s 2-bitnom kvantizacijom na kandidatskim modelima i mjeriti razliku u memoriji i preciznosti;
pratiti version conversion alat ako organizacija ima legacy modele na Opset 17 ili nižem.

Pune release notes dostupne su na GitHub repozitoriju ONNX projekta, a zajednica održava redovite javne sastanke i ankete za prikupljanje povratnih informacija. Projekt se nalazi na onnx.ai.

ONNX v1.21.0 izlazi s Opset 26: novi CumProd i BitCast operatori, podrška za 2-bitne tipove i Python 3.14 free-threading eksperiment