NVIDIA Nemotron 3 Nano Omni: 30B-A3B MoE, 9× throughput

Nemotron 3 Nano Omni je novi NVIDIA-in open multimodalni model koji ujedinjuje viziju, govor i jezik u jednom 30B-A3B hybrid mixture-of-experts sistemu s 256K kontekstom. Postiže vodeću točnost na šest leaderboarda za document intelligence i audio-video razumijevanje, uz 9× veći throughput od drugih open omni modela pri istoj interaktivnosti. Dostupan je odmah na HuggingFaceu, OpenRouteru, NVIDIA NIM-u i 25+ partner platformi; Foxconn, Palantir i još šestero kompanija već koriste model u produkciji.

NVIDIA je 28. travnja 2026. predstavila Nemotron 3 Nano Omni — open multimodalni model koji u jedinstvenom sustavu kombinira viziju, govor i jezik. Model je pozicioniran kao “perception sub-agent” koji se uparuje s većim modelima Nemotron 3 Super i Ultra: Nano radi real-time razumijevanje video i audio inputa, Super/Ultra preuzimaju složeniji reasoning. Time NVIDIA odgovara konkretnom problemu produkcijskih AI agenata — latencija multimodalnih lanaca u kojima se ulaz prosljeđuje kroz zaseban ASR, vision encoder i tekst LLM.

Što je u arhitekturi?

30B-A3B hybrid mixture-of-experts — ukupno 30 milijardi parametara, 3 milijarde aktivnih po inferencu. 256K token konteksta. Specifične komponente: Conv3D (3D konvolucija za video) i EVS (Enhanced Visual System). Modaliteti ulaza: tekst, slike, audio, video, dokumenti, grafikoni i sučelja (GUI screenshotovi). Izlaz: tekst.

Koje brojke NVIDIA stavlja na stol?

Model vodi šest leaderboarda za kompleksno document intelligence te video i audio razumijevanje. Glavna brojka koja zaokuplja pažnju: 9× veći throughput od drugih open omni modela uz istu interaktivnost (latency budget). NVIDIA argumentira da to izravno smanjuje cijenu agenata u produkciji jer manje GPU sati po istoj radnoj jedinici.

Tko ga već koristi?

NVIDIA je objavila konkretne enterprise klijente koji su prešli iz evaluacije u produkciju: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir i Pyler. Use-caseovi: customer support, document analysis i computer interface navigacija (GUI agenti). Dodatne kompanije evaluiraju model: Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle i Zefr.

Gdje je dostupan?

HuggingFace, OpenRouter, NVIDIA NIM (build.nvidia.com kao mikroservis) i 25+ partner platformi — uključujući već dan-zero dostupnost na Amazon SageMaker JumpStart. Distribucijski potez s NVIDIA-ine strane je agresivan: model je istovremeno open weights (HF), inference API (OpenRouter), NVIDIA-in service (NIM) i hyperscaler partnership (AWS).

Česta pitanja

Po čemu se Nemotron 3 Nano Omni razlikuje od običnih multimodalnih LLM-ova?

Hybrid MoE arhitektura (30B ukupno / 3B aktivnih) s Conv3D + EVS komponentama omogućuje real-time obradu video i audio inputa istovremeno s tekstom u jednom modelu, bez prosljeđivanja kroz lancem zasebnih modula.

Što znači 'perception sub-agent' uloga?

NVIDIA pozicionira Nemotron 3 Nano Omni kao perceptivni sloj koji se uparuje s jačim modelima Nemotron 3 Super i Ultra — Nano radi vizualno/audio razumijevanje u real-timeu, Super/Ultra preuzimaju složeniji reasoning.

NVIDIA Nemotron 3 Nano Omni: open multimodalni model 30B-A3B MoE s 256K kontekstom, 9× više throughput-a od konkurencije

Što je u arhitekturi?

Koje brojke NVIDIA stavlja na stol?

Tko ga već koristi?

Gdje je dostupan?

Česta pitanja

Izvori

Povezane vijesti