🔴 🤖 Modeli četvrtak, 30. travnja 2026. · 2 min čitanja ·

NVIDIA Nemotron 3 Nano Omni: 30B-A3B MoE multimodalni model s 9× većim throughputom za AI agente

Editorial illustration: multimodalni AI model koji obrađuje viziju, audio i tekst u jedinstvenoj arhitekturi

NVIDIA je 28. travnja 2026. predstavila Nemotron 3 Nano Omni, open-source 30B-A3B hybrid mixture-of-experts model koji ujedinjuje vid, audio, jezik, video, dokumente i GUI snimke u jednoj arhitekturi s 256K kontekstom. Throughput je 9× veći od ostalih open omni modela uz istu interaktivnost, model vodi šest leaderboarda za document, video i audio razumijevanje. Dostupan je na Hugging Faceu, OpenRouteru, build.nvidia.com i 25+ partnerskih platformi, s ranim adopterima Palantir, Foxconn i Eka Care.

NVIDIA je 28. travnja 2026. predstavila Nemotron 3 Nano Omni, open-source multimodalni model koji ujedinjuje vid, audio i jezik u jedinstvenoj arhitekturi za AI agente. Model dolazi kao 30B-A3B hybrid mixture-of-experts (MoE) s 256K kontekstom i throughputom 9× većim od ostalih open omni modela uz istu razinu interaktivnosti. Pozicija je direktan izazov nedavnim multimodalnim release-evima Mistrala, Mete i Alibabe.

Koje modalnosti Nemotron Nano Omni obrađuje?

Model u jednoj arhitekturi prima i obrađuje šest tipova ulaza: tekst, slike, audio, video, dokumente s grafikonima i GUI snimke ekrana. Specifične tehničke komponente uključuju Conv3D i EVS (efficient video scaling) modul za video, a sistem je testiran na zaslonima rezolucije 1920×1080 za GUI navigaciju. Dizajniran je primarno za AI agente koji moraju kombinirati promatranje sučelja, čitanje dokumenata i razgovor s korisnikom u istom radnom toku.

Što znači 9× veći throughput za inferenciju?

NVIDIA tvrdi da Nano Omni postiže 9× veći broj tokena po sekundi u odnosu na druge open omni modele uz zadržavanje identične interaktivnosti. Praktično, to znači da agentic radni tokovi koji su do sada bili sputani latencijom multimodalne obrade — primjerice, čitanje stotina stranica dokumenta uz simultane GUI klikove — mogu raditi u stvarnom vremenu. Model trenutno vodi u šest kategorija na javnim leaderboardima za razumijevanje dokumenata, videa i audio sadržaja, premda NVIDIA u objavi ne navodi konkretne benchmark brojke.

Gdje je dostupan i tko ga već koristi?

Model je dostupan preko Hugging Facea, OpenRoutera, NVIDIA-inog build.nvidia.com portala te više od 25 partnerskih platformi. Među aktivnim ranim korisnicima ističu se Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir i Pyler. Dell Technologies, Docusign, Infosys, Oracle i Zefr nalaze se u fazi procjene. Široka distribucija i lista korporativnih korisnika sugeriraju da je NVIDIA model pripremila za neposrednu enterprise primjenu, ne samo za istraživačko testiranje.

Česta pitanja

Što je Nemotron 3 Nano Omni?
Open-source 30B-A3B hybrid mixture-of-experts model koji u jednoj arhitekturi obrađuje vid, audio, jezik, video, dokumente, grafikone i GUI snimke. Kontekstni prozor je 256K tokena, koristi Conv3D i EVS tehnologije za efikasnu obradu video sadržaja.
Koliko je brži od konkurencije?
9× veći throughput od ostalih open omni modela uz istu razinu interaktivnosti. Model vodi u šest kategorija na leaderboardima za razumijevanje dokumenata, videa i audio sadržaja.
Tko ga već koristi?
Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir i Pyler aktivno koriste model. Dell Technologies, Docusign, Infosys, Oracle i Zefr trenutno ga procjenjuju za vlastite implementacije.
🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.