NVIDIA Nemotron 3 Nano Omni:30B-A3B MoE 多模态模型,吞吐量是同类开源模型的 9 倍
NVIDIA 于 2026 年 4 月 28 日推出了 Nemotron 3 Nano Omni,这是一款开源 30B-A3B 混合专家模型,在单一架构中统一了视觉、音频、语言、视频、文档和 GUI 截图处理能力,上下文窗口达 256K。与其他开源全模态模型相比,吞吐量高出 9 倍,同时保持相同的交互性。该模型在文档、视频和音频理解六个排行榜上名列第一,可通过 Hugging Face、OpenRouter、build.nvidia.com 及 25 余个合作伙伴平台获取,早期采用者包括 Palantir、Foxconn 和 Eka Care。
NVIDIA 于 2026 年 4 月 28 日推出了 Nemotron 3 Nano Omni,这是一款开源多模态模型,在单一架构中为 AI 智能体统合了视觉、音频和语言处理能力。该模型采用 30B-A3B 混合专家(MoE)架构,上下文窗口达 256K,与其他开源全模态模型相比吞吐量高出 9 倍,同时保持相同的交互性。这一定位直接挑战了 Mistral、Meta 和阿里巴巴近期发布的多模态模型。
Nemotron Nano Omni 处理哪些模态?
该模型在单一架构中接收并处理六种输入类型:文本、图像、音频、视频、带图表的文档以及 GUI 截图。具体技术组件包括用于视频处理的 Conv3D 和 EVS(高效视频缩放)模块,系统已在 1920×1080 分辨率屏幕上针对 GUI 导航进行了测试。该模型主要面向需要在同一工作流中结合界面观察、文档阅读和用户对话的 AI 智能体。
9 倍吞吐量提升对推理意味着什么?
NVIDIA 声称,Nano Omni 在保持相同交互性的情况下,每秒生成的 token 数量是其他开源全模态模型的 9 倍。从实际应用角度来看,这意味着此前受制于多模态处理延迟的智能体工作流——例如同时阅读数百页文档并执行 GUI 点击操作——可以实时运行。该模型目前在文档、视频和音频内容理解的公开排行榜六个类别中名列第一,尽管 NVIDIA 在公告中未提供具体的基准数字。
在哪里可以获取,谁已经在使用?
该模型可通过 Hugging Face、OpenRouter、NVIDIA 的 build.nvidia.com 门户以及 25 余个合作伙伴平台获取。活跃的早期用户包括 Aible、Applied Scientific Intelligence、Eka Care、Foxconn、H Company、Palantir 和 Pyler。Dell Technologies、Docusign、Infosys、Oracle 和 Zefr 正处于评估阶段。广泛的分发渠道和企业用户名单表明 NVIDIA 已将该模型准备好用于即时企业部署,而不仅仅是研究测试。
常见问题
- 什么是 Nemotron 3 Nano Omni?
- 一款开源 30B-A3B 混合专家模型,在单一架构中处理视觉、音频、语言、视频、文档、图表和 GUI 截图。上下文窗口为 256K token,使用 Conv3D 和 EVS 技术高效处理视频内容。
- 它比竞品快多少?
- 与其他开源全模态模型相比,吞吐量高出 9 倍,同时保持相同的交互性。该模型在文档、视频和音频内容理解排行榜的六个类别中名列第一。
- 谁已经在使用它?
- Aible、Applied Scientific Intelligence、Eka Care、Foxconn、H Company、Palantir 和 Pyler 正在积极使用该模型。Dell Technologies、Docusign、Infosys、Oracle 和 Zefr 目前正在评估其自身的实施方案。
本文由人工智能基于一手来源生成。