NVIDIA Nemotron 3 Nano Omni:30B-A3B MoE マルチモーダルモデル、AI エージェント向けに 9 倍のスループットを実現
NVIDIA は 2026 年 4 月 28 日に Nemotron 3 Nano Omni を発表しました。これはオープンソースの 30B-A3B ハイブリッド Mixture-of-Experts モデルで、256K コンテキストの単一アーキテクチャにビジョン、オーディオ、言語、ビデオ、ドキュメント、GUI スクリーンショットの処理を統合しています。同等のインタラクティビティを維持しながら、他のオープンな全モード対応モデルと比べてスループットが 9 倍高く、ドキュメント・ビデオ・オーディオ理解の 6 つのリーダーボードでトップを占めています。Hugging Face、OpenRouter、build.nvidia.com、25 以上のパートナープラットフォームで利用可能で、早期採用者には Palantir、Foxconn、Eka Care が含まれます。
NVIDIA は 2026 年 4 月 28 日に Nemotron 3 Nano Omni を発表しました。これはオープンソースのマルチモーダルモデルで、AI エージェント向けに単一アーキテクチャにビジョン、オーディオ、言語処理を統合しています。モデルは 256K コンテキストを持つ 30B-A3B ハイブリッド Mixture-of-Experts(MoE)として提供され、同等のインタラクティビティを維持しながら他のオープンな全モード対応モデルと比べてスループットが 9 倍高くなっています。この位置づけは、Mistral、Meta、Alibaba が最近リリースしたマルチモーダルモデルへの直接的な挑戦です。
Nemotron Nano Omni はどのモダリティを処理しますか?
このモデルは単一アーキテクチャで 6 種類の入力を受け取り処理します。テキスト、画像、オーディオ、ビデオ、グラフ付きドキュメント、GUI スクリーンショットです。具体的な技術コンポーネントには、ビデオ処理用の Conv3D と EVS(効率的なビデオスケーリング)モジュールが含まれており、GUI ナビゲーション向けに 1920×1080 解像度のディスプレイでテストされています。同じワークフロー内でインターフェース観察、ドキュメント読み取り、ユーザーとの会話を組み合わせる必要がある AI エージェントを主な対象として設計されています。
9 倍のスループット向上は推論においてどのような意味を持ちますか?
NVIDIA は、Nano Omni が同等のインタラクティビティを維持しながら、他のオープンな全モード対応モデルと比べて毎秒生成するトークン数が 9 倍多いと主張しています。実際には、これまでマルチモーダル処理のレイテンシに制約されていたエージェント的なワークフロー——たとえば数百ページのドキュメントを読みながら同時に GUI クリックを行うなど——がリアルタイムで動作できることを意味します。このモデルは現在、ドキュメント・ビデオ・オーディオコンテンツ理解の公開リーダーボードで 6 カテゴリすべてでトップに立っていますが、NVIDIA の発表には具体的なベンチマーク数値は記載されていません。
どこで入手でき、誰がすでに使用していますか?
このモデルは Hugging Face、OpenRouter、NVIDIA の build.nvidia.com ポータル、25 以上のパートナープラットフォームを通じて入手可能です。積極的な早期ユーザーとして Aible、Applied Scientific Intelligence、Eka Care、Foxconn、H Company、Palantir、Pyler が挙げられます。Dell Technologies、Docusign、Infosys、Oracle、Zefr は評価段階にあります。広範な配布と企業ユーザーのリストは、NVIDIA がこのモデルを研究テストだけでなく即時のエンタープライズ展開に向けて準備したことを示唆しています。
よくある質問
- Nemotron 3 Nano Omni とは何ですか?
- 単一アーキテクチャでビジョン、オーディオ、言語、ビデオ、グラフ付きドキュメント、GUI スクリーンショットを処理するオープンソースの 30B-A3B ハイブリッド Mixture-of-Experts モデルです。コンテキストウィンドウは 256K トークンで、ビデオコンテンツを効率的に処理するために Conv3D と EVS 技術を使用しています。
- 競合他社と比べてどれくらい速いですか?
- 同等のインタラクティビティを維持しながら、他のオープンな全モード対応モデルと比べてスループットが 9 倍高くなっています。このモデルはドキュメント・ビデオ・オーディオコンテンツ理解の公開リーダーボードで 6 カテゴリすべてでトップに立っています。
- 誰がすでに使用していますか?
- Aible、Applied Scientific Intelligence、Eka Care、Foxconn、H Company、Palantir、Pyler が積極的に使用しています。Dell Technologies、Docusign、Infosys、Oracle、Zefr は現在自社への導入を評価中です。
この記事はAIにより一次情報源から生成されました。