NVIDIA: Nemotron 3 Ultra — open-weight MoE od 550B za duge agentske tijekove
NVIDIA je objavila Nemotron 3 Ultra, open-weight Mixture-of-Experts model s 550 milijardi ukupnih parametara i 55B aktivnih po tokenu. Model cilja na duge agentske tijekove rada uz do 30% niži trošak naspram drugih vodećih open modela. Dostupan je u Ollami, a vLLM je dao Day-0 podršku za serviranje.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
NVIDIA je 4. lipnja 2026. objavila Nemotron 3 Ultra, open-weight model arhitekture Mixture-of-Experts (MoE) s 550 milijardi ukupnih parametara i 55 milijardi aktivnih po tokenu, optimiziran za NVFP4 (4-bitni floating-point format). Model je namijenjen dugim agentskim tijekovima rada, a dostupnost potvrđuju dva izvora: Ollama library te vLLM s Day-0 podrškom za serviranje.
Što je Nemotron 3 Ultra i kako je građen?
Nemotron 3 Ultra je MoE model, što znači da se po svakom tokenu aktivira samo podskup mreže — ovdje 55 milijardi od ukupnih 550 milijardi parametara. Takva arhitektura omogućuje kapacitet vrlo velikog modela uz znatno niži trošak inference, jer cijela mreža nije aktivna u svakom koraku. NVIDIA je model optimizirala za NVFP4, 4-bitni floating-point format koji dodatno smanjuje memorijske i računske zahtjeve pri serviranju.
Za kakve je zadatke namijenjen?
Nemotron 3 Ultra je eksplicitno građen za duge agentske tijekove rada. To uključuje agent orchestration (koordinaciju više agenata), coding agente te deep-research zadatke koji obuhvaćaju stotine tool-callova — pojedinačnih poziva vanjskih alata unutar jednog zadatka. Za takve scenarije ključan je veliki context window, koji kod Nemotrona 3 Ultra iznosi 256K tokena, uz najavu proširenja do 1 milijuna tokena.
Kakve performanse navodi NVIDIA?
Prema dokumentaciji, Nemotron 3 Ultra vodi u točnosti na agent-produktivnosti, praćenju instrukcija i long-context zadacima. Ključna prednost koju NVIDIA ističe jest ekonomičnost: model donosi do 30% niži trošak naspram drugih vodećih open modela. Kombinacija MoE arhitekture, NVFP4 formata i selektivne aktivacije parametara čini tu uštedu mogućom bez gubitka kapaciteta.
Kako pokrenuti i servirati model?
Za krajnje korisnike model je dostupan u Ollami jednostavnom komandom ollama run nemotron-3-ultra:cloud. Za produkcijsko serviranje vLLM je osigurao Day-0 podršku — dakle podršku dostupnu istog dana kad i sam model. vLLM podržava i BF16 i NVFP4 checkpointe, donosi smjernice za GPU konfiguraciju te nudi OpenAI-kompatibilne API-je. Dodatno, predviđena je integracija s NeMo RL za fine-tuning, čime se model može dalje prilagoditi specifičnim agentskim domenama.
Zašto je objava važna?
Objava Nemotrona 3 Ultra značajna je jer NVIDIA spaja vrlo veliki MoE model s open-weight pristupom i istovremenom podrškom dvaju vodećih ekosustava za lokalno pokretanje (Ollama) i serviranje u produkciji (vLLM). Fokus na agentske tijekove rada, dugi kontekst i niži trošak pozicionira model za organizacije koje grade kompleksne, višekorakne agentske sustave bez ovisnosti o zatvorenim API-jima.
Česta pitanja
- Koliko parametara ima NVIDIA Nemotron 3 Ultra?
- Nemotron 3 Ultra je Mixture-of-Experts (MoE) model s 550 milijardi ukupnih parametara, od kojih je 55 milijardi aktivno po svakom tokenu. Takva MoE arhitektura aktivira samo dio mreže po tokenu, što smanjuje trošak inference dok zadržava kapacitet velikog modela.
- Za što je Nemotron 3 Ultra optimiziran?
- Model je građen za duge agentske tijekove rada — agent orchestration, coding agente i deep-research zadatke koji obuhvaćaju stotine tool-callova. Optimiziran je za NVFP4, 4-bitni floating-point format, te ima context window od 256K tokena uz najavu proširenja do 1M.
- Kako pokrenuti Nemotron 3 Ultra?
- Model je dostupan u Ollami komandom `ollama run nemotron-3-ultra:cloud`. Za serviranje je vLLM dao Day-0 podršku s BF16 i NVFP4 checkpointima, OpenAI-kompatibilnim API-jima i integracijom s NeMo RL za fine-tuning.
Povezane vijesti
arXiv:2606.19808: SEVRA selektivnom verifikacijom štedi do 91 posto tokena u rasuđivanju modela
arXiv:2606.20333: SoftSkill komprimira skill-dokumente u 32 latentna tokena i diže LiveMath za 42,1 boda
arXiv:2606.19327: Rubric-conditioned self-distillation nadmašuje GRPO u treniranju reasoning modela