Gemma 4 VLA在NVIDIA Jetson Orin Nano Super上本地运行

NVIDIA和HuggingFace演示了Gemma 4作为视觉语言智能体（VLA），在拥有8GB内存的NVIDIA Jetson Orin Nano Super上自主决定是否使用摄像头，并在本地完成包含语音识别和TTS在内的完整处理流水线，无需依赖云端。

NVIDIA和HuggingFace展示了Gemma 4模型在紧凑型边缘硬件上完全本地运行**视觉语言智能体（VLA）**的演示。该演示证明，可以构建一个无需任何云端调用的具有视觉、语音和推理能力的智能AI系统。

是什么硬件驱动这个演示中的Gemma 4？

平台是配备8GB内存的NVIDIA Jetson Orin Nano Super——一个可以放在手掌上的小型边缘设备，但具有足够的计算能力来运行现代语言模型。Jetson系列专为延迟、隐私或互联网不可用的场景而设计。

Gemma 4作为Google新一代开放模型的一部分，能够在8GB限制内运行，这表明边缘AI取得了多大的进步。几年前，这样的场景需要一台配备24GB显存的台式GPU。

紧凑的硬件尺寸为机器人技术、物联网助手和无法保证持续云连接的移动工作站开辟了应用可能性。

VLA是将语言理解与视觉相结合的智能体，关键是它自主决定何时需要摄像头。演示表明，Gemma 4在收到查询时会自行评估是否需要使用摄像头，或者不需要视觉输入就能回答。

没有硬编码规则，如”如果问题包含’你看到了什么’，就打开摄像头”。模型会推断是否需要视觉上下文来提供高质量的回答，并相应地委托工具。这是通常与大型云端模型相关联的智能体行为——在这里它在边缘硬件上运行。

这种方法展示了从被动多模态模型向主动自选工具的智能体的转变。

完整流水线在本地运行：语音识别将用户语音转换为文本，Gemma 4执行推理和工具使用决策，**TTS（文字转语音）**以语音形式返回回应。所有步骤都在Jetson设备上流转，无需网络调用。

用户的实际好处是具体的：没有数据传输到云中心的延迟，敏感的视觉和语音数据不离开设备，系统在没有互联网连接的情况下也能工作。对于机器人技术、医疗设备或工业应用，这改变了架构假设。

该演示是智能体AI正逐渐转移到边缘端的实际信号。

常见问题

什么是视觉语言智能体（VLA）？

VLA是将语言理解与视觉相结合的AI智能体，能够自主决定何时以及如何利用视觉输入（例如摄像头）来响应用户查询。

Jetson Orin Nano Super设备的规格是什么？

Jetson Orin Nano Super是配备8GB内存的紧凑型NVIDIA边缘设备，专为在无需云基础设施的情况下本地运行AI模型而设计。

整个流水线在没有云的情况下运行什么？

所有步骤均在本地运行：语音识别用于理解语音，Gemma 4模型进行推理，TTS（文字转语音）生成语音回应。