🔴 🤖 모델 2026년 4월 30일 목요일 · 2 분 읽기 ·

NVIDIA Nemotron 3 Nano Omni:AI 에이전트용 30B-A3B MoE 멀티모달 모델, 처리량 9배 향상

편집 일러스트: 통합 아키텍처에서 비전·오디오·텍스트를 처리하는 멀티모달 AI 모델

NVIDIA는 2026년 4월 28일 Nemotron 3 Nano Omni를 선보였습니다. 이는 256K 컨텍스트의 단일 아키텍처에 비전, 오디오, 언어, 비디오, 문서, GUI 스크린샷 처리를 통합한 오픈소스 30B-A3B 하이브리드 Mixture-of-Experts 모델입니다. 동등한 인터랙티비티를 유지하면서 다른 오픈 옴니 모델 대비 처리량이 9배 높으며, 문서·비디오·오디오 이해 6개 리더보드에서 선두를 차지합니다. Hugging Face, OpenRouter, build.nvidia.com 및 25개 이상의 파트너 플랫폼에서 이용 가능하며, 초기 도입자에는 Palantir, Foxconn, Eka Care가 포함됩니다.

NVIDIA는 2026년 4월 28일 Nemotron 3 Nano Omni를 선보였습니다. 이는 AI 에이전트를 위해 단일 아키텍처에 비전, 오디오, 언어 처리를 통합한 오픈소스 멀티모달 모델입니다. 모델은 256K 컨텍스트를 갖춘 30B-A3B 하이브리드 Mixture-of-Experts(MoE)로 제공되며, 동등한 인터랙티비티를 유지하면서 다른 오픈 옴니 모델 대비 처리량이 9배 높습니다. 이 포지셔닝은 Mistral, Meta, Alibaba가 최근 출시한 멀티모달 모델에 대한 직접적인 도전입니다.

Nemotron Nano Omni는 어떤 모달리티를 처리하나요?

모델은 단일 아키텍처에서 여섯 가지 유형의 입력을 받아 처리합니다. 텍스트, 이미지, 오디오, 비디오, 그래프가 포함된 문서, GUI 스크린샷입니다. 구체적인 기술 구성 요소에는 비디오 처리용 Conv3D와 EVS(효율적인 비디오 스케일링) 모듈이 포함되며, GUI 내비게이션을 위해 1920×1080 해상도 화면에서 테스트되었습니다. 동일한 워크플로우 내에서 인터페이스 관찰, 문서 읽기, 사용자와의 대화를 결합해야 하는 AI 에이전트를 주요 대상으로 설계되었습니다.

처리량 9배 향상은 추론에 어떤 의미를 갖나요?

NVIDIA는 Nano Omni가 동등한 인터랙티비티를 유지하면서 다른 오픈 옴니 모델 대비 초당 생성 토큰 수가 9배 많다고 주장합니다. 실제로 이는 지금까지 멀티모달 처리 지연에 제한받던 에이전트 워크플로우——예를 들어 수백 페이지 문서를 읽으면서 동시에 GUI 클릭 수행——가 실시간으로 작동할 수 있음을 의미합니다. 이 모델은 현재 문서·비디오·오디오 콘텐츠 이해 공개 리더보드 6개 카테고리에서 모두 선두를 달리고 있으나, NVIDIA의 발표에는 구체적인 벤치마크 수치가 기재되어 있지 않습니다.

어디서 이용할 수 있고, 누가 이미 사용하고 있나요?

모델은 Hugging Face, OpenRouter, NVIDIA의 build.nvidia.com 포털 및 25개 이상의 파트너 플랫폼을 통해 이용 가능합니다. 적극적인 초기 사용자로는 Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir, Pyler가 있습니다. Dell Technologies, Docusign, Infosys, Oracle, Zefr는 평가 단계에 있습니다. 광범위한 배포와 기업 사용자 목록은 NVIDIA가 이 모델을 연구 테스트만이 아니라 즉각적인 엔터프라이즈 배포를 위해 준비했음을 시사합니다.

자주 묻는 질문

Nemotron 3 Nano Omni란 무엇인가요?
단일 아키텍처에서 비전, 오디오, 언어, 비디오, 그래프가 포함된 문서, GUI 스크린샷을 처리하는 오픈소스 30B-A3B 하이브리드 Mixture-of-Experts 모델입니다. 컨텍스트 윈도우는 256K 토큰이며, 비디오 콘텐츠의 효율적인 처리를 위해 Conv3D와 EVS 기술을 사용합니다.
경쟁 모델 대비 얼마나 빠른가요?
동등한 인터랙티비티를 유지하면서 다른 오픈 옴니 모델 대비 처리량이 9배 높습니다. 이 모델은 문서·비디오·오디오 콘텐츠 이해 공개 리더보드 6개 카테고리에서 모두 선두를 차지하고 있습니다.
누가 이미 사용하고 있나요?
Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir, Pyler가 적극적으로 사용 중입니다. Dell Technologies, Docusign, Infosys, Oracle, Zefr는 현재 자체 구현을 평가 중입니다.
🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.