NVIDIA Nemotron 3 Ultra——550B MoE 开放模型

NVIDIA 发布了 Nemotron 3 Ultra，一款开放权重的 Mixture-of-Experts 模型，总参数量为 5500 亿，每 token 激活 55B。该模型面向长智能体工作流，相较其他领先开放模型成本最多降低 30%。它已在 Ollama 中提供，vLLM 则为其推理服务提供了 Day-0 支持。

NVIDIA 于 2026年6月4日发布了 Nemotron 3 Ultra，一款架构为 Mixture-of-Experts（MoE） 的开放权重模型，总参数量为 5500 亿、每 token 激活 550 亿，并针对 NVFP4（4 位浮点格式）进行了优化。该模型面向长智能体工作流，其可用性由两个来源确认：Ollama library 以及为推理服务提供 Day-0 支持的 vLLM。

什么是 Nemotron 3 Ultra，它是如何构建的？

Nemotron 3 Ultra 是一款 MoE 模型，这意味着每个 token 仅激活网络的一个子集——此处为总计 5500 亿参数中的 550 亿。这种架构使其在保留超大模型容量的同时显著降低推理成本，因为整个网络并非在每一步都处于激活状态。NVIDIA 针对 NVFP4（4 位浮点格式）对模型进行了优化，进一步降低了推理服务时的内存与计算需求。

它面向哪类任务？

Nemotron 3 Ultra 明确为长智能体工作流而构建。这包括 agent orchestration（多智能体协调）、编程智能体（coding agent），以及涉及数百次 tool-call——单个任务内对外部工具的逐次调用——的 deep-research 任务。对这类场景而言，大的上下文窗口至关重要，Nemotron 3 Ultra 的上下文窗口为 256K token，并已宣布将扩展至 100 万 token。

NVIDIA 给出了怎样的性能？

据文档，Nemotron 3 Ultra 在智能体生产力、指令遵循与长上下文任务的准确率上处于领先。NVIDIA 强调的关键优势是经济性：相较其他领先开放模型，该模型成本最多降低 30%。MoE 架构、NVFP4 格式与参数的选择性激活相结合，使这种节省成为可能而不损失容量。

如何运行与提供该模型的服务？

对终端用户而言，该模型可通过 Ollama 以简单命令 ollama run nemotron-3-ultra:cloud 运行。在生产环境的推理服务方面，vLLM 提供了 Day-0 支持——即与模型本身同日可用的支持。vLLM 同时支持 BF16 与 NVFP4 检查点，提供 GPU 配置指南，并提供兼容 OpenAI 的 API。此外，还计划与 NeMo RL 集成以支持微调，从而可将模型进一步适配到特定的智能体领域。

为何这一发布意义重大？

Nemotron 3 Ultra 的发布之所以意义重大，是因为 NVIDIA 将一个超大 MoE 模型与开放权重路线相结合，并同时获得两大领先生态系统在本地运行（Ollama）与生产推理服务（vLLM）方面的支持。对智能体工作流、长上下文与更低成本的聚焦，使该模型定位于那些构建复杂、多步智能体系统、又不愿依赖封闭 API 的组织。

常见问题

NVIDIA Nemotron 3 Ultra 有多少参数？

Nemotron 3 Ultra 是一款 Mixture-of-Experts（MoE）模型，总参数量为 5500 亿，其中每个 token 激活 550 亿。这种 MoE 架构每个 token 仅激活网络的一部分，从而在保留大模型容量的同时降低推理成本。

Nemotron 3 Ultra 为何而优化？

该模型为长智能体工作流而构建——包括 agent orchestration、编程智能体（coding agent），以及涉及数百次 tool-call 的 deep-research 任务。它针对 NVFP4（4 位浮点格式）进行了优化，上下文窗口为 256K token，并已宣布将扩展至 1M。

如何运行 Nemotron 3 Ultra？

该模型可通过 Ollama 命令 `ollama run nemotron-3-ultra:cloud` 运行。在推理服务方面，vLLM 提供了 Day-0 支持，包含 BF16 与 NVFP4 检查点、兼容 OpenAI 的 API，以及与 NeMo RL 的集成以支持微调。

NVIDIA：Nemotron 3 Ultra——面向长智能体工作流的 550B 开放权重 MoE