Nemotron 3 Nano Omni 与普通多模态大语言模型有何不同？

混合专家（MoE）架构（总参数30B / 激活参数3B）结合 Conv3D 与 EVS 组件，可在同一模型中实时同步处理视频、音频及文本输入，无需通过一系列独立模块进行转发。

「感知子智能体（perception sub-agent）」角色是什么意思？

NVIDIA 将 Nemotron 3 Nano Omni 定位为与更强大的 Nemotron 3 Super 和 Ultra 配对使用的感知层——Nano 负责实时视觉与音频理解，Super/Ultra 负责更复杂的推理（reasoning）任务。

NVIDIA Nemotron 3 Nano Omni：30B-A3B MoE，吞吐量高9倍

2026年4月28日，NVIDIA 发布了 Nemotron 3 Nano Omni —— 一款在单一系统中融合视觉、语音与语言的开源多模态（multimodal）模型。该模型被定位为**“感知子智能体（perception sub-agent）”**，与更大的 Nemotron 3 Super 和 Ultra 配合使用：Nano 负责实时理解视频和音频输入，Super/Ultra 承担更复杂的推理（reasoning）。NVIDIA 由此针对生产级 AI 智能体（Agent）的实际痛点给出答案——多模态链路中将输入依次通过独立 ASR、视觉编码器和文本大语言模型时产生的延迟问题。

架构详情

30B-A3B 混合专家（MoE） —— 总参数300亿，每次推理（inference）激活30亿。256K token 上下文。具体组件：Conv3D（视频三维卷积）和 EVS（增强视觉系统）。输入模态：文本、图像、音频、视频、文档、图表及界面截图（GUI）。输出：文本。

NVIDIA 给出的数据

该模型在六项排行榜（leaderboard）中领先，涵盖复杂文档智能及视频与音频理解。最受关注的核心数据：在相同交互性（延迟预算）下，吞吐量（throughput）比其他开源全模态模型高9倍。NVIDIA 认为这直接降低了生产智能体（Agent）的成本，因为处理相同工作量所需的 GPU 时间更少。

谁已在使用？

NVIDIA 公布了已从评估转入生产的具体企业客户：Aible、Applied Scientific Intelligence（ASI）、Eka Care、Foxconn、H Company、Palantir 和 Pyler。使用场景包括客户支持、文档分析和计算机界面导航（GUI 智能体）。另有更多公司正在评估中：Dell Technologies、Docusign、Infosys、K-Dense、Lila、Oracle 和 Zefr。

获取方式

HuggingFace、OpenRouter、NVIDIA NIM（build.nvidia.com 微服务）及 25个以上合作平台 —— 包括首日即上线的 Amazon SageMaker JumpStart。NVIDIA 的分发策略十分积极：该模型同时以开放权重（HuggingFace）、推理（inference）API（OpenRouter）、NVIDIA 自有服务（NIM）和超大规模云合作（AWS）四种形式提供。

NVIDIA Nemotron 3 Nano Omni：开源多模态（multimodal）30B-A3B MoE（混合专家）模型，支持256K上下文，吞吐量（throughput）比竞品高9倍

架构详情

NVIDIA 给出的数据

谁已在使用？

获取方式

来源

相关新闻