NVIDIA Nemotron 3 Nano Omni: open multimodalni model 30B-A3B MoE s 256K kontekstom, 9× više throughput-a od konkurencije
Zašto je bitno
Nemotron 3 Nano Omni je novi NVIDIA-in open multimodalni model koji ujedinjuje viziju, govor i jezik u jednom 30B-A3B hybrid mixture-of-experts sistemu s 256K kontekstom. Postiže vodeću točnost na šest leaderboarda za document intelligence i audio-video razumijevanje, uz 9× veći throughput od drugih open omni modela pri istoj interaktivnosti. Dostupan je odmah na HuggingFaceu, OpenRouteru, NVIDIA NIM-u i 25+ partner platformi; Foxconn, Palantir i još šestero kompanija već koriste model u produkciji.
NVIDIA je 28. travnja 2026. predstavila Nemotron 3 Nano Omni — open multimodalni model koji u jedinstvenom sustavu kombinira viziju, govor i jezik. Model je pozicioniran kao “perception sub-agent” koji se uparuje s većim modelima Nemotron 3 Super i Ultra: Nano radi real-time razumijevanje video i audio inputa, Super/Ultra preuzimaju složeniji reasoning. Time NVIDIA odgovara konkretnom problemu produkcijskih AI agenata — latencija multimodalnih lanaca u kojima se ulaz prosljeđuje kroz zaseban ASR, vision encoder i tekst LLM.
Što je u arhitekturi?
30B-A3B hybrid mixture-of-experts — ukupno 30 milijardi parametara, 3 milijarde aktivnih po inferencu. 256K token konteksta. Specifične komponente: Conv3D (3D konvolucija za video) i EVS (Enhanced Visual System). Modaliteti ulaza: tekst, slike, audio, video, dokumenti, grafikoni i sučelja (GUI screenshotovi). Izlaz: tekst.
Koje brojke NVIDIA stavlja na stol?
Model vodi šest leaderboarda za kompleksno document intelligence te video i audio razumijevanje. Glavna brojka koja zaokuplja pažnju: 9× veći throughput od drugih open omni modela uz istu interaktivnost (latency budget). NVIDIA argumentira da to izravno smanjuje cijenu agenata u produkciji jer manje GPU sati po istoj radnoj jedinici.
Tko ga već koristi?
NVIDIA je objavila konkretne enterprise klijente koji su prešli iz evaluacije u produkciju: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir i Pyler. Use-caseovi: customer support, document analysis i computer interface navigacija (GUI agenti). Dodatne kompanije evaluiraju model: Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle i Zefr.
Gdje je dostupan?
HuggingFace, OpenRouter, NVIDIA NIM (build.nvidia.com kao mikroservis) i 25+ partner platformi — uključujući već dan-zero dostupnost na Amazon SageMaker JumpStart. Distribucijski potez s NVIDIA-ine strane je agresivan: model je istovremeno open weights (HF), inference API (OpenRouter), NVIDIA-in service (NIM) i hyperscaler partnership (AWS).
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
NVIDIA i Siemens Healthineers: NV-Raw2Insights-US uči direktno iz raw ultrasound signala i korigira sliku u real-timeu
arXiv:2604.21764: 'Thinking with Reasoning Skills' smanjuje broj reasoning tokena uz veću točnost na ACL 2026 Industry Tracku
Thinking with Reasoning Skills (ACL 2026 Industry Track): manje tokena, veća točnost kroz dohvat skilsova zaključivanja