NVIDIA Nemotron 3 Nano Omni:开源多模态(multimodal)30B-A3B MoE(混合专家)模型,支持256K上下文,吞吐量(throughput)比竞品高9倍
为什么重要
Nemotron 3 Nano Omni 是 NVIDIA 推出的开源多模态(multimodal)模型,在一个30B-A3B混合专家(MoE)系统中统一了视觉、语音与语言能力,支持256K上下文。该模型在六项文档智能及音视频理解排行榜(leaderboard)上名列前茅,在保持相同交互性的前提下,吞吐量(throughput)比其他开源全模态模型高9倍。现已在HuggingFace、OpenRouter、NVIDIA NIM 及25个以上合作平台上提供;Foxconn、Palantir 等七家企业已在生产环境中使用。
2026年4月28日,NVIDIA 发布了 Nemotron 3 Nano Omni —— 一款在单一系统中融合视觉、语音与语言的开源多模态(multimodal)模型。该模型被定位为**“感知子智能体(perception sub-agent)”**,与更大的 Nemotron 3 Super 和 Ultra 配合使用:Nano 负责实时理解视频和音频输入,Super/Ultra 承担更复杂的推理(reasoning)。NVIDIA 由此针对生产级 AI 智能体(Agent)的实际痛点给出答案——多模态链路中将输入依次通过独立 ASR、视觉编码器和文本大语言模型时产生的延迟问题。
架构详情
30B-A3B 混合专家(MoE) —— 总参数300亿,每次推理(inference)激活30亿。256K token 上下文。具体组件:Conv3D(视频三维卷积)和 EVS(增强视觉系统)。输入模态:文本、图像、音频、视频、文档、图表及界面截图(GUI)。输出:文本。
NVIDIA 给出的数据
该模型在六项排行榜(leaderboard)中领先,涵盖复杂文档智能及视频与音频理解。最受关注的核心数据:在相同交互性(延迟预算)下,吞吐量(throughput)比其他开源全模态模型高9倍。NVIDIA 认为这直接降低了生产智能体(Agent)的成本,因为处理相同工作量所需的 GPU 时间更少。
谁已在使用?
NVIDIA 公布了已从评估转入生产的具体企业客户:Aible、Applied Scientific Intelligence(ASI)、Eka Care、Foxconn、H Company、Palantir 和 Pyler。使用场景包括客户支持、文档分析和计算机界面导航(GUI 智能体)。另有更多公司正在评估中:Dell Technologies、Docusign、Infosys、K-Dense、Lila、Oracle 和 Zefr。
获取方式
HuggingFace、OpenRouter、NVIDIA NIM(build.nvidia.com 微服务)及 25个以上合作平台 —— 包括首日即上线的 Amazon SageMaker JumpStart。NVIDIA 的分发策略十分积极:该模型同时以开放权重(HuggingFace)、推理(inference)API(OpenRouter)、NVIDIA 自有服务(NIM)和超大规模云合作(AWS)四种形式提供。
本文由人工智能基于一手来源生成。