NVIDIA Nemotron 3 Nano Omni: 30B-A3B MoE multimodalni model s 9× većim throughputom za AI agente
NVIDIA je 28. travnja 2026. predstavila Nemotron 3 Nano Omni, open-source 30B-A3B hybrid mixture-of-experts model koji ujedinjuje vid, audio, jezik, video, dokumente i GUI snimke u jednoj arhitekturi s 256K kontekstom. Throughput je 9× veći od ostalih open omni modela uz istu interaktivnost, model vodi šest leaderboarda za document, video i audio razumijevanje. Dostupan je na Hugging Faceu, OpenRouteru, build.nvidia.com i 25+ partnerskih platformi, s ranim adopterima Palantir, Foxconn i Eka Care.
NVIDIA je 28. travnja 2026. predstavila Nemotron 3 Nano Omni, open-source multimodalni model koji ujedinjuje vid, audio i jezik u jedinstvenoj arhitekturi za AI agente. Model dolazi kao 30B-A3B hybrid mixture-of-experts (MoE) s 256K kontekstom i throughputom 9× većim od ostalih open omni modela uz istu razinu interaktivnosti. Pozicija je direktan izazov nedavnim multimodalnim release-evima Mistrala, Mete i Alibabe.
Koje modalnosti Nemotron Nano Omni obrađuje?
Model u jednoj arhitekturi prima i obrađuje šest tipova ulaza: tekst, slike, audio, video, dokumente s grafikonima i GUI snimke ekrana. Specifične tehničke komponente uključuju Conv3D i EVS (efficient video scaling) modul za video, a sistem je testiran na zaslonima rezolucije 1920×1080 za GUI navigaciju. Dizajniran je primarno za AI agente koji moraju kombinirati promatranje sučelja, čitanje dokumenata i razgovor s korisnikom u istom radnom toku.
Što znači 9× veći throughput za inferenciju?
NVIDIA tvrdi da Nano Omni postiže 9× veći broj tokena po sekundi u odnosu na druge open omni modele uz zadržavanje identične interaktivnosti. Praktično, to znači da agentic radni tokovi koji su do sada bili sputani latencijom multimodalne obrade — primjerice, čitanje stotina stranica dokumenta uz simultane GUI klikove — mogu raditi u stvarnom vremenu. Model trenutno vodi u šest kategorija na javnim leaderboardima za razumijevanje dokumenata, videa i audio sadržaja, premda NVIDIA u objavi ne navodi konkretne benchmark brojke.
Gdje je dostupan i tko ga već koristi?
Model je dostupan preko Hugging Facea, OpenRoutera, NVIDIA-inog build.nvidia.com portala te više od 25 partnerskih platformi. Među aktivnim ranim korisnicima ističu se Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir i Pyler. Dell Technologies, Docusign, Infosys, Oracle i Zefr nalaze se u fazi procjene. Široka distribucija i lista korporativnih korisnika sugeriraju da je NVIDIA model pripremila za neposrednu enterprise primjenu, ne samo za istraživačko testiranje.
Česta pitanja
- Što je Nemotron 3 Nano Omni?
- Open-source 30B-A3B hybrid mixture-of-experts model koji u jednoj arhitekturi obrađuje vid, audio, jezik, video, dokumente, grafikone i GUI snimke. Kontekstni prozor je 256K tokena, koristi Conv3D i EVS tehnologije za efikasnu obradu video sadržaja.
- Koliko je brži od konkurencije?
- 9× veći throughput od ostalih open omni modela uz istu razinu interaktivnosti. Model vodi u šest kategorija na leaderboardima za razumijevanje dokumenata, videa i audio sadržaja.
- Tko ga već koristi?
- Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir i Pyler aktivno koriste model. Dell Technologies, Docusign, Infosys, Oracle i Zefr trenutno ga procjenjuju za vlastite implementacije.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic zatvara 1M context beta za Sonnet 4.5 i Sonnet 4 — migracija na 4.6 obavezna
AstaBench proljeće 2026.: Claude Opus 4.7 vodi s 58% u znanstvenom AI benchmarku, GPT-5.5 jeftiniji upola
PyTorch SMG: disaggregacija CPU od GPU u LLM serving-u donosi 3.5× output throughput za Llama 3.3 70B FP8, već u produkciji na Google Cloudu, Oracleu i Alibabi