NVIDIA Nemotron 3 Nano Omni：30B MoE、9 倍のスループット

NVIDIA は 2026 年 4 月 28 日に Nemotron 3 Nano Omni を発表しました。これはオープンソースの 30B-A3B ハイブリッド Mixture-of-Experts モデルで、256K コンテキストの単一アーキテクチャにビジョン、オーディオ、言語、ビデオ、ドキュメント、GUI スクリーンショットの処理を統合しています。同等のインタラクティビティを維持しながら、他のオープンな全モード対応モデルと比べてスループットが 9 倍高く、ドキュメント・ビデオ・オーディオ理解の 6 つのリーダーボードでトップを占めています。Hugging Face、OpenRouter、build.nvidia.com、25 以上のパートナープラットフォームで利用可能で、早期採用者には Palantir、Foxconn、Eka Care が含まれます。

NVIDIA は 2026 年 4 月 28 日に Nemotron 3 Nano Omni を発表しました。これはオープンソースのマルチモーダルモデルで、AI エージェント向けに単一アーキテクチャにビジョン、オーディオ、言語処理を統合しています。モデルは 256K コンテキストを持つ 30B-A3B ハイブリッド Mixture-of-Experts（MoE）として提供され、同等のインタラクティビティを維持しながら他のオープンな全モード対応モデルと比べてスループットが 9 倍高くなっています。この位置づけは、Mistral、Meta、Alibaba が最近リリースしたマルチモーダルモデルへの直接的な挑戦です。

Nemotron Nano Omni はどのモダリティを処理しますか？

このモデルは単一アーキテクチャで 6 種類の入力を受け取り処理します。テキスト、画像、オーディオ、ビデオ、グラフ付きドキュメント、GUI スクリーンショットです。具体的な技術コンポーネントには、ビデオ処理用の Conv3D と EVS（効率的なビデオスケーリング）モジュールが含まれており、GUI ナビゲーション向けに 1920×1080 解像度のディスプレイでテストされています。同じワークフロー内でインターフェース観察、ドキュメント読み取り、ユーザーとの会話を組み合わせる必要がある AI エージェントを主な対象として設計されています。

9 倍のスループット向上は推論においてどのような意味を持ちますか？

NVIDIA は、Nano Omni が同等のインタラクティビティを維持しながら、他のオープンな全モード対応モデルと比べて毎秒生成するトークン数が 9 倍多いと主張しています。実際には、これまでマルチモーダル処理のレイテンシに制約されていたエージェント的なワークフロー——たとえば数百ページのドキュメントを読みながら同時に GUI クリックを行うなど——がリアルタイムで動作できることを意味します。このモデルは現在、ドキュメント・ビデオ・オーディオコンテンツ理解の公開リーダーボードで 6 カテゴリすべてでトップに立っていますが、NVIDIA の発表には具体的なベンチマーク数値は記載されていません。

どこで入手でき、誰がすでに使用していますか？

このモデルは Hugging Face、OpenRouter、NVIDIA の build.nvidia.com ポータル、25 以上のパートナープラットフォームを通じて入手可能です。積極的な早期ユーザーとして Aible、Applied Scientific Intelligence、Eka Care、Foxconn、H Company、Palantir、Pyler が挙げられます。Dell Technologies、Docusign、Infosys、Oracle、Zefr は評価段階にあります。広範な配布と企業ユーザーのリストは、NVIDIA がこのモデルを研究テストだけでなく即時のエンタープライズ展開に向けて準備したことを示唆しています。

よくある質問

Nemotron 3 Nano Omni とは何ですか？

単一アーキテクチャでビジョン、オーディオ、言語、ビデオ、グラフ付きドキュメント、GUI スクリーンショットを処理するオープンソースの 30B-A3B ハイブリッド Mixture-of-Experts モデルです。コンテキストウィンドウは 256K トークンで、ビデオコンテンツを効率的に処理するために Conv3D と EVS 技術を使用しています。

競合他社と比べてどれくらい速いですか？

同等のインタラクティビティを維持しながら、他のオープンな全モード対応モデルと比べてスループットが 9 倍高くなっています。このモデルはドキュメント・ビデオ・オーディオコンテンツ理解の公開リーダーボードで 6 カテゴリすべてでトップに立っています。

誰がすでに使用していますか？

Aible、Applied Scientific Intelligence、Eka Care、Foxconn、H Company、Palantir、Pyler が積極的に使用しています。Dell Technologies、Docusign、Infosys、Oracle、Zefr は現在自社への導入を評価中です。

NVIDIA Nemotron 3 Nano Omni：30B-A3B MoE マルチモーダルモデル、AI エージェント向けに 9 倍のスループットを実現

Nemotron Nano Omni はどのモダリティを処理しますか？

9 倍のスループット向上は推論においてどのような意味を持ちますか？

どこで入手でき、誰がすでに使用していますか？

よくある質問

出典

関連ニュース