NVIDIA Nemotron 3 Nano Omni：30B MoE，吞吐量提升 9 倍

NVIDIA 于 2026 年 4 月 28 日推出了 Nemotron 3 Nano Omni，这是一款开源 30B-A3B 混合专家模型，在单一架构中统一了视觉、音频、语言、视频、文档和 GUI 截图处理能力，上下文窗口达 256K。与其他开源全模态模型相比，吞吐量高出 9 倍，同时保持相同的交互性。该模型在文档、视频和音频理解六个排行榜上名列第一，可通过 Hugging Face、OpenRouter、build.nvidia.com 及 25 余个合作伙伴平台获取，早期采用者包括 Palantir、Foxconn 和 Eka Care。

NVIDIA 于 2026 年 4 月 28 日推出了 Nemotron 3 Nano Omni，这是一款开源多模态模型，在单一架构中为 AI 智能体统合了视觉、音频和语言处理能力。该模型采用 30B-A3B 混合专家（MoE）架构，上下文窗口达 256K，与其他开源全模态模型相比吞吐量高出 9 倍，同时保持相同的交互性。这一定位直接挑战了 Mistral、Meta 和阿里巴巴近期发布的多模态模型。

Nemotron Nano Omni 处理哪些模态？

该模型在单一架构中接收并处理六种输入类型：文本、图像、音频、视频、带图表的文档以及 GUI 截图。具体技术组件包括用于视频处理的 Conv3D 和 EVS（高效视频缩放）模块，系统已在 1920×1080 分辨率屏幕上针对 GUI 导航进行了测试。该模型主要面向需要在同一工作流中结合界面观察、文档阅读和用户对话的 AI 智能体。

9 倍吞吐量提升对推理意味着什么？

NVIDIA 声称，Nano Omni 在保持相同交互性的情况下，每秒生成的 token 数量是其他开源全模态模型的 9 倍。从实际应用角度来看，这意味着此前受制于多模态处理延迟的智能体工作流——例如同时阅读数百页文档并执行 GUI 点击操作——可以实时运行。该模型目前在文档、视频和音频内容理解的公开排行榜六个类别中名列第一，尽管 NVIDIA 在公告中未提供具体的基准数字。

在哪里可以获取，谁已经在使用？

该模型可通过 Hugging Face、OpenRouter、NVIDIA 的 build.nvidia.com 门户以及 25 余个合作伙伴平台获取。活跃的早期用户包括 Aible、Applied Scientific Intelligence、Eka Care、Foxconn、H Company、Palantir 和 Pyler。Dell Technologies、Docusign、Infosys、Oracle 和 Zefr 正处于评估阶段。广泛的分发渠道和企业用户名单表明 NVIDIA 已将该模型准备好用于即时企业部署，而不仅仅是研究测试。

常见问题

什么是 Nemotron 3 Nano Omni？

一款开源 30B-A3B 混合专家模型，在单一架构中处理视觉、音频、语言、视频、文档、图表和 GUI 截图。上下文窗口为 256K token，使用 Conv3D 和 EVS 技术高效处理视频内容。

它比竞品快多少？

与其他开源全模态模型相比，吞吐量高出 9 倍，同时保持相同的交互性。该模型在文档、视频和音频内容理解排行榜的六个类别中名列第一。

谁已经在使用它？

Aible、Applied Scientific Intelligence、Eka Care、Foxconn、H Company、Palantir 和 Pyler 正在积极使用该模型。Dell Technologies、Docusign、Infosys、Oracle 和 Zefr 目前正在评估其自身的实施方案。

NVIDIA Nemotron 3 Nano Omni：30B-A3B MoE 多模态模型，吞吐量是同类开源模型的 9 倍

Nemotron Nano Omni 处理哪些模态？

9 倍吞吐量提升对推理意味着什么？

在哪里可以获取，谁已经在使用？

常见问题

来源

相关新闻