🟢 📦 Open Source utorak, 28. travnja 2026. · 4 min čitanja

ONNX v1.21.0 izlazi s Opset 26: novi CumProd i BitCast operatori, podrška za 2-bitne tipove i Python 3.14 free-threading eksperiment

Apstraktna ilustracija slojevitog neuronskog grafa s istaknutim novim operatorima i numeričkim oznakama 2-bitnih tenzora kao simbol verzije Opset 26.

Zašto je bitno

Linux Foundation AI & Data Foundation objavila je 27. travnja 2026. ONNX v1.21.0 — uvodi Opset 26 s operatorima CumProd i BitCast, podršku za 2-bitne tipove, eksperimentalno Python 3.14 free-threading, te poboljšanja konzistentnosti integer dijeljenja i sigurnosti kompajlera.

Linux Foundation AI & Data Foundation objavila je 27. travnja 2026. novu glavnu verziju ONNX v1.21.0 — inkrementalno ali smisleno ažuriranje otvorenog standarda za razmjenu modela strojnog učenja. Najznačajnija novost je Opset 26, nova verzija operatorskog standarda koja modelima omogućuje da “izraze više funkcionalnosti i pokreću se kroz širi niz alata i runtime-ova”.

Glavni dodaci u Opset 26

Dva nova operatora dodana su u standardni katalog:

  • CumProd — izvodi kumulativna množenja preko tenzora. Funkcionalno je sličan poznatom CumSum operatoru koji izvodi kumulativna zbrajanja, ali umjesto sume radi proizvod. Korisno je za probabilističke modele, faktorijelske izračune i rekurzivne sekvence.
  • BitCast — omogućuje reinterpretaciju podataka bez kopiranja. Operator je analogan bit_cast funkciji u nekim programskim jezicima — uzima isti niz bitova i tretira ga kao drugi tip iste veličine. To je važno za performance-kritične dijelove pipelajna gdje treba prebacivati između npr. float32 i int32 reprezentacija bez memorijskog overhead-a kopiranja.

2-bitna podrška: signal za edge i mobile

Najistaknutija arhitekturalna promjena je podrška za 2-bitne tipove podataka. Modeli koji koriste 2-bitne reprezentacije težina ili aktivacija omogućavaju:

  • dramatično manju veličinu modela — 2-bitno je 4× manje od 8-bita, 16× manje od 32-bita,
  • manje memorijsko utiskivanje pri izvođenju,
  • bolje performanse na hardveru s ograničenim memory bandwidth-om.

Ovo je posebno relevantno za edge, mobilne i embedded sustave, gdje 2-bitna kvantizacija postaje sve češći izbor za kompresiju velikih modela. Standardizacija na razini ONNX znači da framework-i (PyTorch, TensorFlow, TVM) i runtime-i (ONNX Runtime, Triton) mogu interoperabilno raditi s 2-bitnim modelima bez custom konverzija.

Dodatna poboljšanja

Manje vidljive ali važne izmjene:

  • konzistentnost integer dijeljenja — različiti runtime-i su povijesno tretirali rubne slučajeve (npr. dijeljenje s 0, podjelu negativnih cijelih brojeva) različito; ova verzija unifikira semantiku;
  • prošireni helper-i za konverziju verzija — olakšava se nadogradnja legacy modela s starijih opset verzija na nove;
  • eksperimentalna podrška za Python 3.14 free-threading — Python 3.14 uvodi opciju rada bez GIL-a (Global Interpreter Lock), a ONNX dodaje eksperimentalnu kompatibilnost s tim modelom izvođenja, što može pomoći u višedretvenim ML servisima;
  • pojačano hardening kompajleraproduction security poboljšanja koja bi trebala smanjiti rizik od memory corruption bug-ova u native ONNX C++ kodu.

Što ovo znači za ekosustav

Tri praktične implikacije za korisnike:

  • Modeli kvantizirani na 2 bita sada imaju standardizirani put kroz cijeli stack — od treniranja u PyTorchu, kroz konverziju u ONNX, do izvođenja na ONNX Runtime-u. Prije ovog pomaka, korisnici su morali raditi custom proširenja.
  • Interoperabilnost između framework-a — CumProd i BitCast operatori uobičajeni su u modernim ML modelima, ali su prethodno često emulirani kroz složene kombinacije osnovnih operatora. Standardizacija pojednostavnjuje export i import.
  • Migration tool za legacy modele — prošireni version conversion helperi smanjuju operativni trošak nadogradnje starih modela na novije opset verzije, što je važno za organizacije s velikim portfolio-ima modela koji rade godinama.

Budući planovi koje LF AI najavljuje

Najava verzije spominje i nekoliko smjerova razvoja za buduće verzije:

  • prošireni operatori za generativni AI — tipični obrasci poput RoPE, GQA i specijaliziranih attention varijanti zahtijevaju operatore koje stari opset nije imao;
  • poboljšane mogućnosti kvantizacije — uz 2-bitno, očekuje se rad i na mješovitim preciznostima;
  • nova radna grupa za probabilističko programiranje — fokus na Bayesian inference i model unutar ONNX okvira.

Praktični savjeti

Za timove koji već koriste ONNX:

  • provjeriti kompatibilnost runtime-a — Opset 26 traži ažurirani ONNX Runtime ili drugi engine koji podržava nove operatore;
  • eksperimentirati s 2-bitnom kvantizacijom na kandidatskim modelima i mjeriti razliku u memoriji i preciznosti;
  • pratiti version conversion alat ako organizacija ima legacy modele na Opset 17 ili nižem.

Pune release notes dostupne su na GitHub repozitoriju ONNX projekta, a zajednica održava redovite javne sastanke i ankete za prikupljanje povratnih informacija. Projekt se nalazi na onnx.ai.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.