🔴 🤖 模型 发布于: · 2 分钟阅读 ·

NVIDIA:Nemotron 3 Ultra——面向长智能体工作流的 550B 开放权重 MoE

编辑插图:NVIDIA:Nemotron 3 Ultra——面向长智能体工作流的 550B 开放权重 MoE

NVIDIA 发布了 Nemotron 3 Ultra,一款开放权重的 Mixture-of-Experts 模型,总参数量为 5500 亿,每 token 激活 55B。该模型面向长智能体工作流,相较其他领先开放模型成本最多降低 30%。它已在 Ollama 中提供,vLLM 则为其推理服务提供了 Day-0 支持。

🤖

本文由人工智能基于一手来源生成。

NVIDIA 于 2026年6月4日发布了 Nemotron 3 Ultra,一款架构为 Mixture-of-Experts(MoE开放权重模型,总参数量为 5500 亿、每 token 激活 550 亿,并针对 NVFP4(4 位浮点格式)进行了优化。该模型面向长智能体工作流,其可用性由两个来源确认:Ollama library 以及为推理服务提供 Day-0 支持的 vLLM

什么是 Nemotron 3 Ultra,它是如何构建的?

Nemotron 3 Ultra 是一款 MoE 模型,这意味着每个 token 仅激活网络的一个子集——此处为总计 5500 亿参数中的 550 亿。这种架构使其在保留超大模型容量的同时显著降低推理成本,因为整个网络并非在每一步都处于激活状态。NVIDIA 针对 NVFP4(4 位浮点格式)对模型进行了优化,进一步降低了推理服务时的内存与计算需求。

它面向哪类任务?

Nemotron 3 Ultra 明确为长智能体工作流而构建。这包括 agent orchestration(多智能体协调)、编程智能体(coding agent),以及涉及数百次 tool-call——单个任务内对外部工具的逐次调用——的 deep-research 任务。对这类场景而言,大的上下文窗口至关重要,Nemotron 3 Ultra 的上下文窗口为 256K token,并已宣布将扩展至 100 万 token。

NVIDIA 给出了怎样的性能?

据文档,Nemotron 3 Ultra 在智能体生产力、指令遵循与长上下文任务的准确率上处于领先。NVIDIA 强调的关键优势是经济性:相较其他领先开放模型,该模型成本最多降低 30%。MoE 架构、NVFP4 格式与参数的选择性激活相结合,使这种节省成为可能而不损失容量。

如何运行与提供该模型的服务?

对终端用户而言,该模型可通过 Ollama 以简单命令 ollama run nemotron-3-ultra:cloud 运行。在生产环境的推理服务方面,vLLM 提供了 Day-0 支持——即与模型本身同日可用的支持。vLLM 同时支持 BF16 与 NVFP4 检查点,提供 GPU 配置指南,并提供兼容 OpenAI 的 API。此外,还计划与 NeMo RL 集成以支持微调,从而可将模型进一步适配到特定的智能体领域。

为何这一发布意义重大?

Nemotron 3 Ultra 的发布之所以意义重大,是因为 NVIDIA 将一个超大 MoE 模型与开放权重路线相结合,并同时获得两大领先生态系统在本地运行(Ollama)与生产推理服务(vLLM)方面的支持。对智能体工作流、长上下文与更低成本的聚焦,使该模型定位于那些构建复杂、多步智能体系统、又不愿依赖封闭 API 的组织。

常见问题

NVIDIA Nemotron 3 Ultra 有多少参数?
Nemotron 3 Ultra 是一款 Mixture-of-Experts(MoE)模型,总参数量为 5500 亿,其中每个 token 激活 550 亿。这种 MoE 架构每个 token 仅激活网络的一部分,从而在保留大模型容量的同时降低推理成本。
Nemotron 3 Ultra 为何而优化?
该模型为长智能体工作流而构建——包括 agent orchestration、编程智能体(coding agent),以及涉及数百次 tool-call 的 deep-research 任务。它针对 NVFP4(4 位浮点格式)进行了优化,上下文窗口为 256K token,并已宣布将扩展至 1M。
如何运行 Nemotron 3 Ultra?
该模型可通过 Ollama 命令 `ollama run nemotron-3-ultra:cloud` 运行。在推理服务方面,vLLM 提供了 Day-0 支持,包含 BF16 与 NVFP4 检查点、兼容 OpenAI 的 API,以及与 NeMo RL 的集成以支持微调。