NVIDIA Nemotron 3 Ultra — 550B MoE openモデル

NVIDIAは、総パラメータ5,500億・トークンあたり55Bがアクティブな open-weight Mixture-of-Experts モデル Nemotron 3 Ultra を公開した。このモデルは長尺のエージェントワークフローを対象とし、他の主要なopenモデルと比べて最大30%低いコストを実現する。Ollamaで利用可能で、vLLMはサービングのためのDay-0サポートを提供した。

NVIDIA は2026年6月4日、総パラメータ5,500億・トークンあたり550億がアクティブな、Mixture-of-Experts（MoE） アーキテクチャの open-weight モデル Nemotron 3 Ultra を、NVFP4（4ビット浮動小数点フォーマット）向けに最適化して公開した。このモデルは長尺のエージェントワークフローを対象としており、その提供は二つの源——Ollama ライブラリと、サービングのためのDay-0サポートを備えた vLLM——が確認している。

Nemotron 3 Ultraとは何か、どのように構築されているか

Nemotron 3 UltraはMoEモデルであり、つまりトークンごとにネットワークの一部分のみ——ここでは総パラメータ5,500億のうち550億——が活性化される。このアーキテクチャは、ネットワーク全体が各ステップで活性化されるわけではないため、非常に大規模なモデルの容量を、はるかに低い推論コストで可能にする。NVIDIAはこのモデルを、サービング時のメモリおよび計算要件をさらに削減する4ビット浮動小数点フォーマットであるNVFP4向けに最適化した。

どのような課題のために設計されているか

Nemotron 3 Ultraは長尺のエージェントワークフローのために明示的に構築されている。これには、agent orchestration（複数エージェントの協調）、codingエージェント、そして単一の課題内で数百のtool-call——外部ツールの個別の呼び出し——を含むdeep-researchの課題が含まれる。こうしたシナリオには大きなcontext windowが鍵となり、Nemotron 3 Ultraではそれが256Kトークンに達し、100万トークンまでの拡張が予告されている。

NVIDIAはどのような性能を挙げているか

ドキュメントによれば、Nemotron 3 Ultraはエージェント生産性、指示追従、long-contextの課題において精度で首位に立つ。NVIDIAが強調する鍵となる利点は経済性であり、このモデルは他の主要なopenモデルと比べて最大30%低いコストをもたらす。MoEアーキテクチャ、NVFP4フォーマット、そしてパラメータの選択的な活性化の組み合わせが、容量を損なうことなくその節約を可能にしている。

モデルの起動とサービングはどのように行うか

エンドユーザー向けには、このモデルはOllamaで ollama run nemotron-3-ultra:cloud というシンプルなコマンドで利用できる。本番でのサービングについては、vLLMがDay-0サポート——すなわちモデルそのものと同じ日に提供されるサポート——を確保した。vLLMはBF16とNVFP4の両方のcheckpointをサポートし、GPU構成のガイドラインを提供し、OpenAI互換のAPIを備える。加えて、fine-tuning向けの NeMo RL との統合が予定されており、これによりモデルを特定のエージェントドメインへさらに適応させることができる。

なぜこの公開は重要なのか

Nemotron 3 Ultraの公開が重要なのは、NVIDIAが非常に大規模なMoEモデルを、open-weightのアプローチと、ローカル実行（Ollama）および本番サービング（vLLM）のための主要な二つのエコシステムへの同時サポートと結びつけているからである。エージェントワークフロー、長いコンテキスト、低コストへの注力は、このモデルを、クローズドなAPIに依存することなく複雑で多段階のエージェントシステムを構築する組織にとって有力なものに位置づけている。

よくある質問

NVIDIA Nemotron 3 Ultraのパラメータ数はどれほどか。

Nemotron 3 Ultraは、総パラメータ5,500億のMixture-of-Experts（MoE）モデルで、そのうち550億がトークンごとにアクティブになる。このようなMoEアーキテクチャはトークンごとにネットワークの一部のみを活性化させるため、大規模モデルの容量を保ちつつ推論コストを削減する。

Nemotron 3 Ultraは何のために最適化されているか。

このモデルは長尺のエージェントワークフロー——agent orchestration、codingエージェント、数百のtool-callを含むdeep-researchの課題——のために構築されている。NVFP4（4ビット浮動小数点フォーマット）向けに最適化されており、256Kトークンのcontext windowを持ち、1Mまでの拡張が予告されている。

Nemotron 3 Ultraはどのように起動するか。

このモデルはOllamaで `ollama run nemotron-3-ultra:cloud` というコマンドで利用できる。サービングについては、vLLMがBF16およびNVFP4のcheckpoint、OpenAI互換のAPI、そしてfine-tuning向けのNeMo RLとの統合を備えたDay-0サポートを提供した。

NVIDIA: Nemotron 3 Ultra — 長尺のエージェントワークフロー向け550Bのopen-weight MoE