🔴 🤖 モデル 2026年4月29日水曜日 · 2 分で読めます

NVIDIA Nemotron 3 Nano Omni:256Kコンテキスト対応のオープンマルチモーダル(multimodal)30B-A3B MoE(専門家混合)モデル、スループット(throughput)は競合比9倍

編集用イラスト:ハイブリッドMoE(専門家混合)アーキテクチャを通じて動画・音声・テキストを統合するマルチモーダル(multimodal)AIシステム

なぜ重要か

Nemotron 3 Nano Omni は、NVIDIAが新たに発表したオープンマルチモーダル(multimodal)モデルです。視覚・音声・言語を単一の30B-A3B ハイブリッドMoE(専門家混合)システムに統合し、256Kコンテキストに対応しています。ドキュメントインテリジェンスおよび音声・動画理解の6つのリーダーボード(leaderboard)でトップを獲得し、同等の応答性を維持しながら他のオープン全モーダルモデルの9倍のスループット(throughput)を実現しています。HuggingFace・OpenRouter・NVIDIA NIM・25以上のパートナープラットフォームでただちに利用可能で、Foxconn・Palantirを含む7社がすでに本番環境で活用しています。

2026年4月28日、NVIDIAは Nemotron 3 Nano Omni を発表しました。視覚・音声・言語を単一システムに統合したオープンマルチモーダル(multimodal)モデルです。このモデルは 「知覚サブエージェント(perception sub-agent)」 として位置付けられ、より大規模なNemotron 3 SuperおよびUltraと組み合わせて使用します。Nanoがビデオ・音声入力のリアルタイム理解を担い、Super/Ultraがより複雑な推論(reasoning)を引き受けます。これにより、NVIDIAは本番環境のAIエージェント(Agent)における具体的な課題——入力を別々のASR・ビジョンエンコーダ・テキストLLMのチェーンで転送する際に生じるレイテンシ——に応えています。

アーキテクチャの内容

30B-A3B ハイブリッドMoE(専門家混合) —— 総パラメータ300億、推論(inference)時アクティブパラメータ30億。256Kトークンコンテキスト。固有コンポーネント:Conv3D(動画向け3次元畳み込み)と EVS(拡張視覚システム)。入力モダリティ:テキスト・画像・音声・動画・ドキュメント・グラフ・GUI スクリーンショット。出力:テキスト。

NVIDIAが提示する数値

モデルは複雑なドキュメントインテリジェンスおよび動画・音声理解において 6つのリーダーボード(leaderboard)でトップを獲得しています。最も注目される数値:同等の応答性(レイテンシ予算)を維持しながら、他のオープン全モーダルモデルより スループット(throughput)が9倍高い という点です。NVIDIAは、同じ作業量あたりのGPU時間が少なくて済むため、本番エージェント(Agent)のコストを直接削減できると主張しています。

すでに誰が使っているか

NVIDIAは評価から本番移行済みの具体的なエンタープライズ顧客を公表しました:Aible・Applied Scientific Intelligence(ASI)・Eka Care・Foxconn・H Company・Palantir および Pyler です。ユースケースはカスタマーサポート・ドキュメント分析・コンピュータインターフェースナビゲーション(GUIエージェント)です。さらに Dell Technologies・Docusign・Infosys・K-Dense・Lila・Oracle および Zefr が評価中です。

利用可能な場所

HuggingFace・OpenRouter・NVIDIA NIM(build.nvidia.com マイクロサービス)および 25以上のパートナープラットフォーム —— Amazon SageMaker JumpStart でのゼロデイ提供も含みます。NVIDIAの流通戦略は積極的です。オープンウェイト(HuggingFace)・推論(inference)API(OpenRouter)・NVIDIAサービス(NIM)・ハイパースケーラーパートナーシップ(AWS)を同時に展開しています。

🤖

この記事はAIにより一次情報源から生成されました。