NVIDIA: Nemotron 3 Ultra — ein 550B-Open-Weight-MoE für lange agentische Workflows
NVIDIA hat Nemotron 3 Ultra veröffentlicht, ein Open-Weight-Mixture-of-Experts-Modell mit 550 Milliarden Gesamtparametern und 55B aktiven pro Token. Das Modell zielt auf lange agentische Workflows bei bis zu 30 % geringeren Kosten gegenüber anderen führenden Open-Modellen. Es ist in Ollama verfügbar, und vLLM bot Day-0-Unterstützung für das Serving.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
NVIDIA veröffentlichte am 4. Juni 2026 Nemotron 3 Ultra, ein Open-Weight-Modell der Mixture-of-Experts-Architektur (MoE) mit 550 Milliarden Gesamtparametern und 55 Milliarden aktiven pro Token, optimiert für NVFP4 (ein 4-Bit-Gleitkommaformat). Das Modell ist für lange agentische Workflows bestimmt, und seine Verfügbarkeit bestätigen zwei Quellen: die Ollama-Bibliothek sowie vLLM mit Day-0-Unterstützung für das Serving.
Was ist Nemotron 3 Ultra und wie ist es aufgebaut?
Nemotron 3 Ultra ist ein MoE-Modell, das heißt, pro Token wird nur eine Teilmenge des Netzwerks aktiviert — hier 55 Milliarden der insgesamt 550 Milliarden Parameter. Eine solche Architektur ermöglicht die Kapazität eines sehr großen Modells bei deutlich geringeren Inferenzkosten, da nicht das gesamte Netzwerk in jedem Schritt aktiv ist. NVIDIA optimierte das Modell für NVFP4, ein 4-Bit-Gleitkommaformat, das die Speicher- und Rechenanforderungen beim Serving zusätzlich senkt.
Für welche Aufgaben ist es bestimmt?
Nemotron 3 Ultra ist ausdrücklich für lange agentische Workflows gebaut. Dazu gehören Agent-Orchestration (die Koordination mehrerer Agenten), Coding-Agenten sowie Deep-Research-Aufgaben, die Hunderte von Tool-Calls umfassen — einzelne Aufrufe externer Werkzeuge innerhalb einer einzigen Aufgabe. Für solche Szenarien ist ein großes Kontextfenster entscheidend, das bei Nemotron 3 Ultra 256K Token beträgt, mit einer angekündigten Erweiterung auf 1 Million Token.
Welche Leistung gibt NVIDIA an?
Laut Dokumentation führt Nemotron 3 Ultra in der Genauigkeit bei Agentenproduktivität, Befolgung von Anweisungen und Long-Context-Aufgaben. Der zentrale Vorteil, den NVIDIA hervorhebt, ist die Wirtschaftlichkeit: Das Modell bringt bis zu 30 % geringere Kosten gegenüber anderen führenden Open-Modellen. Die Kombination aus MoE-Architektur, NVFP4-Format und selektiver Parameteraktivierung macht diese Einsparung ohne Kapazitätsverlust möglich.
Wie startet und serviert man das Modell?
Für Endnutzer ist das Modell in Ollama über den einfachen Befehl ollama run nemotron-3-ultra:cloud verfügbar. Für das produktive Serving stellte vLLM Day-0-Unterstützung bereit — also Unterstützung, die am selben Tag wie das Modell selbst verfügbar ist. vLLM unterstützt sowohl BF16- als auch NVFP4-Checkpoints, liefert Hinweise zur GPU-Konfiguration und bietet OpenAI-kompatible APIs. Zusätzlich ist eine Integration mit NeMo RL für das Fine-Tuning vorgesehen, wodurch sich das Modell weiter an spezifische agentische Domänen anpassen lässt.
Warum ist die Veröffentlichung wichtig?
Die Veröffentlichung von Nemotron 3 Ultra ist bedeutsam, weil NVIDIA ein sehr großes MoE-Modell mit einem Open-Weight-Ansatz und gleichzeitiger Unterstützung zweier führender Ökosysteme für lokales Ausführen (Ollama) und produktives Serving (vLLM) verbindet. Der Fokus auf agentische Workflows, langen Kontext und geringere Kosten positioniert das Modell für Organisationen, die komplexe, mehrstufige agentische Systeme ohne Abhängigkeit von geschlossenen APIs aufbauen.
Häufig gestellte Fragen
- Wie viele Parameter hat NVIDIA Nemotron 3 Ultra?
- Nemotron 3 Ultra ist ein Mixture-of-Experts-Modell (MoE) mit 550 Milliarden Gesamtparametern, von denen 55 Milliarden pro Token aktiv sind. Diese MoE-Architektur aktiviert nur einen Teil des Netzwerks pro Token, was die Inferenzkosten senkt und dabei die Kapazität eines großen Modells beibehält.
- Wofür ist Nemotron 3 Ultra optimiert?
- Das Modell ist für lange agentische Workflows gebaut — Agent-Orchestration, Coding-Agenten und Deep-Research-Aufgaben, die Hunderte von Tool-Calls umfassen. Es ist für NVFP4 optimiert, ein 4-Bit-Gleitkommaformat, und hat ein Kontextfenster von 256K Token mit einer angekündigten Erweiterung auf 1M.
- Wie startet man Nemotron 3 Ultra?
- Das Modell ist in Ollama über den Befehl `ollama run nemotron-3-ultra:cloud` verfügbar. Für das Serving bot vLLM Day-0-Unterstützung mit BF16- und NVFP4-Checkpoints, OpenAI-kompatiblen APIs und Integration mit NeMo RL für das Fine-Tuning.
Verwandte Nachrichten
arXiv:2606.19808: SEVRA spart durch selektive Verifikation bis zu 91 Prozent der Tokens beim Modell-Reasoning
arXiv:2606.20333: SoftSkill komprimiert Skill-Dokumente in 32 latente Tokens und steigert LiveMath um 42,1 Punkte
arXiv:2606.19327: Rubrik-konditionierte Selbstdestillation übertrifft GRPO beim Reasoning-Training