Nemotron 3 Nano Omni는 일반적인 멀티모달(multimodal) LLM과 무엇이 다릅니까?

하이브리드 MoE(전문가 혼합) 아키텍처(총 30B / 활성 3B)에 Conv3D와 EVS 컴포넌트를 결합하여, 별도 모듈 체인을 거치지 않고 단일 모델 내에서 비디오·오디오·텍스트 입력을 실시간으로 동시 처리할 수 있습니다.

'지각 서브 에이전트(perception sub-agent)' 역할이란 무엇입니까?

NVIDIA는 Nemotron 3 Nano Omni를 더 강력한 Nemotron 3 Super 및 Ultra와 결합하는 지각(perception) 레이어로 포지셔닝합니다. Nano가 실시간 시각·오디오 이해를 담당하고, Super/Ultra가 보다 복잡한 추론(reasoning)을 처리합니다.

NVIDIA Nemotron 3 Nano Omni: 30B-A3B MoE, 처리량 9배

2026년 4월 28일, NVIDIA는 Nemotron 3 Nano Omni를 발표했습니다. 시각·음성·언어를 단일 시스템에 통합한 오픈 멀티모달(multimodal) 모델입니다. 이 모델은 더 큰 Nemotron 3 Super 및 Ultra와 함께 사용되는 “지각 서브 에이전트(perception sub-agent)” 로 포지셔닝됩니다. Nano가 비디오·오디오 입력의 실시간 이해를 담당하고, Super/Ultra가 더 복잡한 추론(reasoning)을 처리합니다. NVIDIA는 이를 통해 프로덕션 AI 에이전트(Agent)의 실질적인 문제——입력이 별도의 ASR·비전 인코더·텍스트 LLM 체인을 통해 전달될 때 발생하는 지연——에 대응합니다.

아키텍처 구성

30B-A3B 하이브리드 MoE(전문가 혼합) —— 총 파라미터 300억 개, 추론(inference)당 활성 파라미터 30억 개. 256K 토큰 컨텍스트. 주요 컴포넌트: Conv3D(비디오용 3D 컨볼루션)와 EVS(강화 시각 시스템). 입력 모달리티: 텍스트·이미지·오디오·비디오·문서·차트·GUI 스크린샷. 출력: 텍스트.

NVIDIA가 제시하는 수치

모델은 복잡한 문서 인텔리전스 및 비디오·오디오 이해 분야 6개 리더보드(leaderboard)에서 선두를 기록합니다. 가장 주목받는 수치는 동일한 응답성(레이턴시 예산)을 유지하면서 다른 오픈 옴니 모델 대비 처리량(throughput)이 9배 높다는 점입니다. NVIDIA는 동일한 작업량 대비 GPU 시간이 적게 소요되므로 프로덕션 에이전트(Agent)의 비용을 직접 절감할 수 있다고 주장합니다.

이미 사용 중인 기업

NVIDIA는 평가 단계에서 프로덕션으로 전환한 구체적인 엔터프라이즈 고객을 공개했습니다: Aible·Applied Scientific Intelligence(ASI)·Eka Care·Foxconn·H Company·Palantir 및 Pyler입니다. 사용 사례는 고객 지원·문서 분석·컴퓨터 인터페이스 탐색(GUI 에이전트)입니다. 추가로 Dell Technologies·Docusign·Infosys·K-Dense·Lila·Oracle 및 Zefr가 평가 중입니다.

이용 가능한 곳

HuggingFace·OpenRouter·NVIDIA NIM(build.nvidia.com 마이크로서비스) 및 25개 이상의 파트너 플랫폼 —— Amazon SageMaker JumpStart의 출시 당일 제공도 포함합니다. NVIDIA의 배포 전략은 공격적입니다: 오픈 웨이트(HuggingFace)·추론(inference) API(OpenRouter)·NVIDIA 서비스(NIM)·하이퍼스케일러 파트너십(AWS)을 동시에 제공합니다.

NVIDIA Nemotron 3 Nano Omni: 256K 컨텍스트 지원 오픈 멀티모달(multimodal) 30B-A3B MoE(전문가 혼합) 모델, 처리량(throughput) 경쟁사 대비 9배

아키텍처 구성

NVIDIA가 제시하는 수치

이미 사용 중인 기업

이용 가능한 곳

출처

관련 뉴스