NVIDIA Nemotron 3 Nano Omni: 256K 컨텍스트 지원 오픈 멀티모달(multimodal) 30B-A3B MoE(전문가 혼합) 모델, 처리량(throughput) 경쟁사 대비 9배
왜 중요한가
Nemotron 3 Nano Omni는 NVIDIA가 새롭게 공개한 오픈 멀티모달(multimodal) 모델입니다. 시각·음성·언어를 단일 30B-A3B 하이브리드 MoE(전문가 혼합) 시스템으로 통합하며 256K 컨텍스트를 지원합니다. 문서 인텔리전스 및 오디오·비디오 이해 분야 6개 리더보드(leaderboard)에서 최고 정확도를 달성했으며, 동일한 응답성을 유지하면서 다른 오픈 옴니 모델 대비 처리량(throughput)이 9배 높습니다. HuggingFace·OpenRouter·NVIDIA NIM 및 25개 이상의 파트너 플랫폼에서 즉시 이용 가능하며, Foxconn·Palantir를 포함한 7개 기업이 이미 프로덕션 환경에서 활용 중입니다.
2026년 4월 28일, NVIDIA는 Nemotron 3 Nano Omni를 발표했습니다. 시각·음성·언어를 단일 시스템에 통합한 오픈 멀티모달(multimodal) 모델입니다. 이 모델은 더 큰 Nemotron 3 Super 및 Ultra와 함께 사용되는 “지각 서브 에이전트(perception sub-agent)” 로 포지셔닝됩니다. Nano가 비디오·오디오 입력의 실시간 이해를 담당하고, Super/Ultra가 더 복잡한 추론(reasoning)을 처리합니다. NVIDIA는 이를 통해 프로덕션 AI 에이전트(Agent)의 실질적인 문제——입력이 별도의 ASR·비전 인코더·텍스트 LLM 체인을 통해 전달될 때 발생하는 지연——에 대응합니다.
아키텍처 구성
30B-A3B 하이브리드 MoE(전문가 혼합) —— 총 파라미터 300억 개, 추론(inference)당 활성 파라미터 30억 개. 256K 토큰 컨텍스트. 주요 컴포넌트: Conv3D(비디오용 3D 컨볼루션)와 EVS(강화 시각 시스템). 입력 모달리티: 텍스트·이미지·오디오·비디오·문서·차트·GUI 스크린샷. 출력: 텍스트.
NVIDIA가 제시하는 수치
모델은 복잡한 문서 인텔리전스 및 비디오·오디오 이해 분야 6개 리더보드(leaderboard)에서 선두를 기록합니다. 가장 주목받는 수치는 동일한 응답성(레이턴시 예산)을 유지하면서 다른 오픈 옴니 모델 대비 처리량(throughput)이 9배 높다는 점입니다. NVIDIA는 동일한 작업량 대비 GPU 시간이 적게 소요되므로 프로덕션 에이전트(Agent)의 비용을 직접 절감할 수 있다고 주장합니다.
이미 사용 중인 기업
NVIDIA는 평가 단계에서 프로덕션으로 전환한 구체적인 엔터프라이즈 고객을 공개했습니다: Aible·Applied Scientific Intelligence(ASI)·Eka Care·Foxconn·H Company·Palantir 및 Pyler입니다. 사용 사례는 고객 지원·문서 분석·컴퓨터 인터페이스 탐색(GUI 에이전트)입니다. 추가로 Dell Technologies·Docusign·Infosys·K-Dense·Lila·Oracle 및 Zefr가 평가 중입니다.
이용 가능한 곳
HuggingFace·OpenRouter·NVIDIA NIM(build.nvidia.com 마이크로서비스) 및 25개 이상의 파트너 플랫폼 —— Amazon SageMaker JumpStart의 출시 당일 제공도 포함합니다. NVIDIA의 배포 전략은 공격적입니다: 오픈 웨이트(HuggingFace)·추론(inference) API(OpenRouter)·NVIDIA 서비스(NIM)·하이퍼스케일러 파트너십(AWS)을 동시에 제공합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.