ONNX란 무엇이고 왜 중요한가요?

ONNX(Open Neural Network Exchange)는 머신러닝 모델의 상호운용성을 위한 개방 표준으로 PyTorch, TensorFlow, 런타임 엔진 간 이식성을 가능하게 합니다. v1.21.0은 Opset 표준을 26으로 높입니다.

2비트 지원은 무엇을 제공하나요?

모델이 초소형 2비트 가중치와 활성화 표현을 사용할 수 있어 모델 크기와 메모리 요구사항을 크게 줄입니다. 리소스가 제한된 엣지, 모바일, 임베디드 응용에 특히 유용합니다.

CumProd와 BitCast 연산자의 차이는 무엇인가요?

CumProd는 텐서에 대해 누적 곱셈을 수행합니다——알려진 CumSum 연산과 유사하지만 합계 대신 곱을 사용합니다. BitCast는 복사 없이 데이터를 재해석할 수 있습니다. 동일한 크기의 타입 간 변환을 위한 효율적인 연산입니다.

이 맥락에서 'Python 3.14 자유 스레딩'은 무엇을 의미하나요?

Python 3.14는 GIL(전역 인터프리터 잠금) 없이 작동하는 옵션을 실험적으로 도입했습니다. ONNX v1.21.0은 해당 실행 모드에 대한 실험적 지원을 추가하여 다중 스레드 ML 파이프라인의 병렬성을 향상시킬 수 있습니다.

ONNX v1.21.0: Opset 26, CumProd, BitCast와 2비트 타입

Linux Foundation AI & Data Foundation이 2026년 4월 27일 ONNX v1.21.0을 출시했습니다——CumProd와 BitCast 연산자가 포함된 Opset 26, 2비트 타입 지원, 실험적 Python 3.14 자유 스레딩, 정수 나눗셈 일관성 및 컴파일러 보안 개선을 도입합니다.

Linux Foundation AI & Data Foundation이 2026년 4월 27일 ONNX v1.21.0을 발표했습니다——머신러닝 모델 교환 개방 표준의 점진적이지만 의미 있는 업데이트입니다. 가장 중요한 새 기능은 Opset 26으로, 이 새로운 연산자 표준 버전을 통해 모델이 「더 많은 기능을 표현하고 더 광범위한 도구와 런타임에서 실행될 수 있습니다」.

Opset 26의 주요 추가 사항

표준 카탈로그에 두 가지 새 연산자가 추가되었습니다:

CumProd——텐서에 대해 누적 곱셈을 수행합니다. 기능적으로 누적 합계를 수행하는 잘 알려진 CumSum 연산자와 유사하지만 합계 대신 곱을 사용합니다. 확률 모델, 계승 계산, 재귀 시퀀스에 유용합니다.
BitCast——복사 없이 데이터를 재해석할 수 있습니다. 이 연산자는 일부 프로그래밍 언어의 bit_cast 함수와 유사합니다——동일한 비트 시퀀스를 가져 동일한 크기의 다른 타입으로 처리합니다. 메모리 복사 오버헤드 없이 예를 들어 float32와 int32 표현 사이를 전환하는 성능 중요 파이프라인 부분에 중요합니다.

2비트 지원: 엣지와 모바일 분야의 신호

가장 두드러진 아키텍처 변경은 2비트 데이터 타입 지원입니다. 2비트 가중치 또는 활성화 표현을 사용하는 모델이 가능하게 하는 것:

극적인 모델 크기 감소——2비트는 8비트보다 4배, 32비트보다 16배 작습니다;
실행 시 더 작은 메모리 사용량;
메모리 대역폭이 제한된 하드웨어에서 더 나은 성능.

이는 2비트 양자화가 대형 모델 압축을 위해 점점 더 일반적인 선택이 되고 있는 엣지, 모바일, 임베디드 시스템에 특히 관련됩니다. ONNX 수준에서의 표준화는 프레임워크(PyTorch, TensorFlow, TVM)와 런타임(ONNX Runtime, Triton)이 커스텀 변환 없이 2비트 모델과 상호운용할 수 있음을 의미합니다.

추가 개선 사항

덜 눈에 띄지만 중요한 변경사항:

정수 나눗셈 일관성——다른 런타임들은 역사적으로 엣지 케이스(예: 0으로 나누기, 음수 정수 나눗셈)를 다르게 처리해왔습니다; 이 버전이 의미론을 통일합니다;
확장된 버전 변환 도우미——이전 opset 버전에서 새 버전으로의 레거시 모델 업그레이드를 용이하게 합니다;
Python 3.14 자유 스레딩 실험적 지원——Python 3.14는 GIL(전역 인터프리터 잠금) 없이 작동하는 옵션을 도입했으며, ONNX는 해당 실행 모드와의 실험적 호환성을 추가합니다;
강화된 컴파일러 하드닝——네이티브 ONNX C++ 코드에서 메모리 손상 버그 위험을 줄여야 하는 프로덕션 보안 개선.

생태계에 대한 의미

사용자를 위한 세 가지 실천적 시사점:

2비트로 양자화된 모델은 이제 전체 스택에 걸쳐 표준화된 경로를 갖습니다——PyTorch에서의 학습, ONNX로의 변환, ONNX Runtime에서의 실행까지. 이 변경 전에는 사용자가 커스텀 확장을 만들어야 했습니다.
프레임워크 간 상호운용성——CumProd와 BitCast 연산자는 현대 ML 모델에서 일반적이지만 이전에는 기본 연산자의 복잡한 조합으로 에뮬레이션되는 경우가 많았습니다. 표준화로 내보내기와 가져오기가 간소화됩니다.
레거시 모델 마이그레이션 도구——확장된 버전 변환 도우미는 오래된 모델을 최신 opset 버전으로 업그레이드하는 운영 비용을 줄입니다. 이는 수년간 실행 중인 대규모 모델 포트폴리오를 보유한 조직에게 중요합니다.

LF AI가 발표한 향후 계획

버전 발표는 미래 버전의 여러 개발 방향도 언급합니다:

생성형 AI를 위한 확장 연산자——RoPE, GQA, 전문화된 attention 변체 같은 전형적인 패턴은 구 opset에 없던 연산자가 필요합니다;
개선된 양자화 기능——2비트 외에도 혼합 정밀도 작업도 예상됩니다;
확률적 프로그래밍을 위한 새로운 작업 그룹——ONNX 프레임워크 내에서 베이즈 추론과 모델에 초점.

실용적인 조언

이미 ONNX를 사용하는 팀을 위해:

런타임 호환성 확인——Opset 26은 새로운 연산자를 지원하는 업데이트된 ONNX Runtime 또는 다른 엔진이 필요합니다;
후보 모델에서 2비트 양자화를 실험하고 메모리와 정확도 차이를 측정합니다;
조직에 Opset 17 이하의 레거시 모델이 있다면 버전 변환 도구를 추적합니다.

전체 릴리스 노트는 ONNX 프로젝트의 GitHub 저장소에서 확인할 수 있으며, 커뮤니티는 정기적인 공개 회의와 피드백 설문을 유지합니다. 프로젝트는 onnx.ai에 있습니다.

ONNX v1.21.0 출시, Opset 26 도입: 새로운 CumProd와 BitCast 연산자, 2비트 타입 지원 및 Python 3.14 자유 스레딩 실험