NVIDIA Nemotron 3 Ultra — 550B MoE open 모델

NVIDIA가 총 5,500억 파라미터에 토큰당 55B가 활성화되는 open-weight Mixture-of-Experts 모델 Nemotron 3 Ultra를 출시했다. 이 모델은 다른 선도 open 모델 대비 최대 30% 낮은 비용으로 긴 에이전트 워크플로를 겨냥한다. Ollama에서 이용 가능하며, vLLM이 서빙을 위한 Day-0 지원을 제공했다.

NVIDIA는 2026년 6월 4일 총 5,500억 파라미터에 토큰당 550억이 활성화되며 NVFP4(4-bit floating-point 포맷)에 최적화된 open-weight Mixture-of-Experts(MoE) 아키텍처 모델 Nemotron 3 Ultra를 출시했다. 이 모델은 긴 에이전트 워크플로를 위한 것이며, 그 가용성은 두 출처가 확인해 준다: Ollama 라이브러리와 서빙을 위한 Day-0 지원을 제공한 vLLM.

Nemotron 3 Ultra란 무엇이며 어떻게 구축되었는가?

Nemotron 3 Ultra는 MoE 모델로, 토큰마다 네트워크의 하위 집합만 — 여기서는 총 5,500억 중 550억 파라미터가 — 활성화된다는 의미다. 이러한 아키텍처는 전체 네트워크가 매 단계 활성화되지 않으므로, 매우 큰 모델의 용량을 훨씬 낮은 추론 비용으로 가능하게 한다. NVIDIA는 이 모델을 NVFP4, 즉 서빙 시 메모리 및 연산 요구를 추가로 줄이는 4-bit floating-point 포맷에 최적화했다.

어떤 과제를 위한 것인가?

Nemotron 3 Ultra는 명시적으로 긴 에이전트 워크플로를 위해 구축되었다. 여기에는 agent orchestration(여러 에이전트의 조율), coding 에이전트, 그리고 단일 과제 내 외부 도구의 개별 호출인 tool-call을 수백 건 포함하는 deep-research 과제가 포함된다. 이러한 시나리오에는 큰 context window가 핵심인데, Nemotron 3 Ultra의 경우 256K 토큰에 달하며 100만 토큰까지의 확장을 예고하고 있다.

NVIDIA는 어떤 성능을 제시하는가?

문서에 따르면 Nemotron 3 Ultra는 에이전트 생산성, 지시 따르기, long-context 과제에서 정확도를 선도한다. NVIDIA가 강조하는 핵심 이점은 경제성이다: 이 모델은 다른 선도 open 모델 대비 최대 30% 낮은 비용을 가져온다. MoE 아키텍처, NVFP4 포맷, 그리고 선택적 파라미터 활성화의 결합이 용량 손실 없이 이 절감을 가능하게 한다.

모델은 어떻게 실행하고 서빙하는가?

최종 사용자를 위해 이 모델은 간단한 명령 ollama run nemotron-3-ultra:cloud로 Ollama에서 이용 가능하다. 프로덕션 서빙을 위해 vLLM은 Day-0 지원 — 즉 모델 자체와 같은 날 제공되는 지원 — 을 확보했다. vLLM은 BF16과 NVFP4 체크포인트를 모두 지원하고, GPU 구성 지침을 제공하며, OpenAI 호환 API를 제공한다. 추가로 fine-tuning을 위한 NeMo RL 통합이 예정되어 있어, 모델을 특정 에이전트 도메인에 맞춰 추가로 적응시킬 수 있다.

이 출시가 왜 중요한가?

Nemotron 3 Ultra의 출시가 중요한 이유는, NVIDIA가 매우 큰 MoE 모델을 open-weight 접근법과, 로컬 실행(Ollama) 및 프로덕션 서빙(vLLM)을 위한 두 선도 생태계의 동시 지원과 결합하기 때문이다. 에이전트 워크플로, 긴 컨텍스트, 낮은 비용에 대한 집중은, 이 모델을 폐쇄형 API에 의존하지 않고 복잡한 다단계 에이전트 시스템을 구축하는 조직을 위해 자리매김한다.

자주 묻는 질문

NVIDIA Nemotron 3 Ultra는 파라미터가 몇 개인가?

Nemotron 3 Ultra는 총 5,500억 파라미터를 갖춘 Mixture-of-Experts(MoE) 모델이며, 그중 토큰마다 550억이 활성화된다. 이러한 MoE 아키텍처는 토큰당 네트워크의 일부만 활성화하여, 대형 모델의 용량을 유지하면서 추론 비용을 줄인다.

Nemotron 3 Ultra는 무엇에 최적화되어 있는가?

이 모델은 긴 에이전트 워크플로 — agent orchestration, coding 에이전트, 그리고 수백 건의 tool-call을 포함하는 deep-research 과제 — 를 위해 구축되었다. 4-bit floating-point 포맷인 NVFP4에 최적화되어 있으며, 256K 토큰의 context window를 갖추고 1M까지 확장을 예고했다.

Nemotron 3 Ultra는 어떻게 실행하는가?

이 모델은 Ollama에서 `ollama run nemotron-3-ultra:cloud` 명령으로 이용 가능하다. 서빙을 위해 vLLM이 BF16 및 NVFP4 체크포인트, OpenAI 호환 API, 그리고 fine-tuning을 위한 NeMo RL 통합과 함께 Day-0 지원을 제공했다.

NVIDIA: Nemotron 3 Ultra — 긴 에이전트 워크플로를 위한 550B open-weight MoE