Gemma 4在NVIDIA Jetson Orin Nano Super上本地运行视觉语言智能体
为什么重要
NVIDIA和HuggingFace演示了Gemma 4作为视觉语言智能体(VLA),在拥有8GB内存的NVIDIA Jetson Orin Nano Super上自主决定是否使用摄像头,并在本地完成包含语音识别和TTS在内的完整处理流水线,无需依赖云端。
NVIDIA和HuggingFace展示了Gemma 4模型在紧凑型边缘硬件上完全本地运行**视觉语言智能体(VLA)**的演示。该演示证明,可以构建一个无需任何云端调用的具有视觉、语音和推理能力的智能AI系统。
是什么硬件驱动这个演示中的Gemma 4?
平台是配备8GB内存的NVIDIA Jetson Orin Nano Super——一个可以放在手掌上的小型边缘设备,但具有足够的计算能力来运行现代语言模型。Jetson系列专为延迟、隐私或互联网不可用的场景而设计。
Gemma 4作为Google新一代开放模型的一部分,能够在8GB限制内运行,这表明边缘AI取得了多大的进步。几年前,这样的场景需要一台配备24GB显存的台式GPU。
紧凑的硬件尺寸为机器人技术、物联网助手和无法保证持续云连接的移动工作站开辟了应用可能性。
在这个上下文中”视觉语言智能体”是什么意思?
VLA是将语言理解与视觉相结合的智能体,关键是它自主决定何时需要摄像头。演示表明,Gemma 4在收到查询时会自行评估是否需要使用摄像头,或者不需要视觉输入就能回答。
没有硬编码规则,如”如果问题包含’你看到了什么’,就打开摄像头”。模型会推断是否需要视觉上下文来提供高质量的回答,并相应地委托工具。这是通常与大型云端模型相关联的智能体行为——在这里它在边缘硬件上运行。
这种方法展示了从被动多模态模型向主动自选工具的智能体的转变。
哪些流水线部分在没有云的情况下运行?
完整流水线在本地运行:语音识别将用户语音转换为文本,Gemma 4执行推理和工具使用决策,**TTS(文字转语音)**以语音形式返回回应。所有步骤都在Jetson设备上流转,无需网络调用。
用户的实际好处是具体的:没有数据传输到云中心的延迟,敏感的视觉和语音数据不离开设备,系统在没有互联网连接的情况下也能工作。对于机器人技术、医疗设备或工业应用,这改变了架构假设。
该演示是智能体AI正逐渐转移到边缘端的实际信号。
本文由人工智能基于一手来源生成。