Gemma 4在NVIDIA Jetson Orin Nano Super上本地运行视觉语言智能体
NVIDIA和HuggingFace演示了Gemma 4作为视觉语言智能体(VLA),在拥有8GB内存的NVIDIA Jetson Orin Nano Super上自主决定是否使用摄像头,并在本地完成包含语音识别和TTS在内的完整处理流水线,无需依赖云端。
本文由人工智能基于一手来源生成。
NVIDIA和HuggingFace展示了Gemma 4模型在紧凑型边缘硬件上完全本地运行**视觉语言智能体(VLA)**的演示。该演示证明,可以构建一个无需任何云端调用的具有视觉、语音和推理能力的智能AI系统。
是什么硬件驱动这个演示中的Gemma 4?
平台是配备8GB内存的NVIDIA Jetson Orin Nano Super——一个可以放在手掌上的小型边缘设备,但具有足够的计算能力来运行现代语言模型。Jetson系列专为延迟、隐私或互联网不可用的场景而设计。
Gemma 4作为Google新一代开放模型的一部分,能够在8GB限制内运行,这表明边缘AI取得了多大的进步。几年前,这样的场景需要一台配备24GB显存的台式GPU。
紧凑的硬件尺寸为机器人技术、物联网助手和无法保证持续云连接的移动工作站开辟了应用可能性。
在这个上下文中”视觉语言智能体”是什么意思?
VLA是将语言理解与视觉相结合的智能体,关键是它自主决定何时需要摄像头。演示表明,Gemma 4在收到查询时会自行评估是否需要使用摄像头,或者不需要视觉输入就能回答。
没有硬编码规则,如”如果问题包含’你看到了什么’,就打开摄像头”。模型会推断是否需要视觉上下文来提供高质量的回答,并相应地委托工具。这是通常与大型云端模型相关联的智能体行为——在这里它在边缘硬件上运行。
这种方法展示了从被动多模态模型向主动自选工具的智能体的转变。
哪些流水线部分在没有云的情况下运行?
完整流水线在本地运行:语音识别将用户语音转换为文本,Gemma 4执行推理和工具使用决策,**TTS(文字转语音)**以语音形式返回回应。所有步骤都在Jetson设备上流转,无需网络调用。
用户的实际好处是具体的:没有数据传输到云中心的延迟,敏感的视觉和语音数据不离开设备,系统在没有互联网连接的情况下也能工作。对于机器人技术、医疗设备或工业应用,这改变了架构假设。
该演示是智能体AI正逐渐转移到边缘端的实际信号。
常见问题
- 什么是视觉语言智能体(VLA)?
- VLA是将语言理解与视觉相结合的AI智能体,能够自主决定何时以及如何利用视觉输入(例如摄像头)来响应用户查询。
- Jetson Orin Nano Super设备的规格是什么?
- Jetson Orin Nano Super是配备8GB内存的紧凑型NVIDIA边缘设备,专为在无需云基础设施的情况下本地运行AI模型而设计。
- 整个流水线在没有云的情况下运行什么?
- 所有步骤均在本地运行:语音识别用于理解语音,Gemma 4模型进行推理,TTS(文字转语音)生成语音回应。