Gemma 4 pokrenut kao Vision Language Agent lokalno na Jetson Orin Nano Super
Zašto je bitno
NVIDIA i HuggingFace demonstrirali su Gemma 4 kao Vision Language Agent koji autonomno odlučuje o korištenju kamere i cijelu pipeline obradu, uključujući speech-to-text i TTS, izvodi lokalno na NVIDIA Jetson Orin Nano Super s 8 GB memorije, bez cloud ovisnosti.
NVIDIA i HuggingFace pokazali su demonstraciju u kojoj Gemma 4 model radi kao Vision Language Agent (VLA) potpuno lokalno na kompaktnom edge hardveru. Demo potvrđuje da je moguće izgraditi agentic AI sustav s vizijom, govorom i rezoniranjem bez ijednog poziva prema cloudu.
Koji hardver pokreće Gemma 4 u ovom demou?
Platforma je NVIDIA Jetson Orin Nano Super s 8 GB memorije — mali edge uređaj koji stane na dlan, ali ima dovoljno računalne snage za izvođenje modernog jezičnog modela. Jetson serija dizajnirana je upravo za scenarije u kojima je latencija, privatnost ili nedostupnost interneta problem.
Činjenica da Gemma 4, koji je dio Googleove nove generacije otvorenih modela, uopće može raditi u 8 GB ograničenju pokazuje koliko je edge AI napredovao. Prije nekoliko godina za ovakav scenarij trebao je stolni GPU s 24 GB VRAM-a.
Kompaktnost hardvera otvara primjenu u robotici, IoT asistentima i mobilnim radnim stanicama gdje stalna cloud veza nije opcija.
Što znači “Vision Language Agent” u ovom kontekstu?
VLA je agent koji spaja jezično razumijevanje s vidom, ali ključno — autonomno odlučuje kada mu je kamera potrebna. Demo pokazuje da Gemma 4 na upit sam procjenjuje hoće li iskoristiti kameru ili odgovoriti bez vizualnog ulaza.
Nema hardkodiranih pravila tipa “ako pitanje sadrži riječ ‘vidiš’, uključi kameru”. Model rezonira o tome je li mu za kvalitetan odgovor potreban vizualni kontekst i prema tome delegira alate. To je agentic ponašanje koje se obično veže uz velike cloud modele — ovdje radi na edge hardveru.
Takav pristup pokazuje pomak od pasivnih multimodalnih modela prema aktivnim agentima koji sami biraju alate.
Koji dijelovi pipelinea rade bez clouda?
Cjeloviti pipeline izvodi se lokalno: speech-to-text pretvara korisnikov govor u tekst, Gemma 4 obavlja rezoniranje i odlučivanje o korištenju alata, a TTS (text-to-speech) vraća odgovor u govornom obliku. Svi koraci teku kroz Jetson uređaj bez mrežnih poziva.
Korisničke prednosti su konkretne: nema latencije uslijed putovanja podataka do cloud centra, osjetljivi vizualni i govorni podaci ne napuštaju uređaj, a sustav radi i bez internetske veze. Za robotiku, medicinske uređaje ili industrijske primjene to mijenja arhitektonske pretpostavke.
Demonstracija je praktični signal da se agentic AI postupno seli na edge.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
NVIDIA i Google Cloud najavili suradnju za agentic AI i physical AI na zajedničkoj infrastrukturi
Google predstavio 8. generaciju TPU čipova: dvije specijalizirane varijante za agentic AI eru
AWS G7e Blackwell instance: Qwen3-32B na SageMakeru za $0,41 po milijunu tokena — 4× jeftiniji inference