Nemotron 3 Nano Omni は通常のマルチモーダル（multimodal）LLMと何が違いますか？

ハイブリッドMoE（専門家混合）アーキテクチャ（総パラメータ30B・推論時アクティブ3B）にConv3DとEVSコンポーネントを組み合わせることで、単一モデル内でビデオ・音声・テキスト入力をリアルタイムに同時処理でき、独立したモジュールのチェーンを経由する必要がありません。

「知覚サブエージェント（perception sub-agent）」という役割はどういう意味ですか？

NVIDIAはNemotron 3 Nano Omniを、より強力なNemotron 3 SuperおよびUltraと組み合わせて使う知覚レイヤーとして位置付けています。Nanoがリアルタイムの視覚・音声理解を担い、Super/Ultraがより複雑な推論（reasoning）を処理します。

NVIDIA Nemotron 3 Nano Omni：30B-A3B MoE、スループット9倍

2026年4月28日、NVIDIAは Nemotron 3 Nano Omni を発表しました。視覚・音声・言語を単一システムに統合したオープンマルチモーダル（multimodal）モデルです。このモデルは 「知覚サブエージェント（perception sub-agent）」 として位置付けられ、より大規模なNemotron 3 SuperおよびUltraと組み合わせて使用します。Nanoがビデオ・音声入力のリアルタイム理解を担い、Super/Ultraがより複雑な推論（reasoning）を引き受けます。これにより、NVIDIAは本番環境のAIエージェント（Agent）における具体的な課題——入力を別々のASR・ビジョンエンコーダ・テキストLLMのチェーンで転送する際に生じるレイテンシ——に応えています。

アーキテクチャの内容

30B-A3B ハイブリッドMoE（専門家混合） —— 総パラメータ300億、推論（inference）時アクティブパラメータ30億。256Kトークンコンテキスト。固有コンポーネント：Conv3D（動画向け3次元畳み込み）と EVS（拡張視覚システム）。入力モダリティ：テキスト・画像・音声・動画・ドキュメント・グラフ・GUI スクリーンショット。出力：テキスト。

NVIDIAが提示する数値

モデルは複雑なドキュメントインテリジェンスおよび動画・音声理解において 6つのリーダーボード（leaderboard）でトップを獲得しています。最も注目される数値：同等の応答性（レイテンシ予算）を維持しながら、他のオープン全モーダルモデルより スループット（throughput）が9倍高い という点です。NVIDIAは、同じ作業量あたりのGPU時間が少なくて済むため、本番エージェント（Agent）のコストを直接削減できると主張しています。

すでに誰が使っているか

NVIDIAは評価から本番移行済みの具体的なエンタープライズ顧客を公表しました：Aible・Applied Scientific Intelligence（ASI）・Eka Care・Foxconn・H Company・Palantir および Pyler です。ユースケースはカスタマーサポート・ドキュメント分析・コンピュータインターフェースナビゲーション（GUIエージェント）です。さらに Dell Technologies・Docusign・Infosys・K-Dense・Lila・Oracle および Zefr が評価中です。

利用可能な場所

HuggingFace・OpenRouter・NVIDIA NIM（build.nvidia.com マイクロサービス）および 25以上のパートナープラットフォーム —— Amazon SageMaker JumpStart でのゼロデイ提供も含みます。NVIDIAの流通戦略は積極的です。オープンウェイト（HuggingFace）・推論（inference）API（OpenRouter）・NVIDIAサービス（NIM）・ハイパースケーラーパートナーシップ（AWS）を同時に展開しています。

NVIDIA Nemotron 3 Nano Omni：256Kコンテキスト対応のオープンマルチモーダル（multimodal）30B-A3B MoE（専門家混合）モデル、スループット（throughput）は競合比9倍

アーキテクチャの内容

NVIDIAが提示する数値

すでに誰が使っているか

利用可能な場所

出典

関連ニュース