Što je Vision Language Agent (VLA)?

VLA je AI agent koji kombinira razumijevanje jezika i vida te samostalno odlučuje kada će i kako iskoristiti vizualni ulaz, primjerice kameru, za odgovor na korisnikov upit.

Koje su specifikacije Jetson Orin Nano Super uređaja?

Jetson Orin Nano Super je kompaktni NVIDIA edge uređaj s 8 GB memorije, dizajniran za lokalno izvođenje AI modela bez potrebe za cloud infrastrukturom.

Što pokreće cijeli pipeline bez clouda?

Lokalno se izvode svi koraci: speech-to-text za razumijevanje govora, reasoning kroz Gemma 4 model, te TTS za generiranje govornog odgovora.

Gemma 4 VLA lokalno na NVIDIA Jetson Orin Nano Super

NVIDIA i HuggingFace pokazali su demonstraciju u kojoj Gemma 4 model radi kao Vision Language Agent (VLA) potpuno lokalno na kompaktnom edge hardveru. Demo potvrđuje da je moguće izgraditi agentic AI sustav s vizijom, govorom i rezoniranjem bez ijednog poziva prema cloudu.

Koji hardver pokreće Gemma 4 u ovom demou?

Platforma je NVIDIA Jetson Orin Nano Super s 8 GB memorije — mali edge uređaj koji stane na dlan, ali ima dovoljno računalne snage za izvođenje modernog jezičnog modela. Jetson serija dizajnirana je upravo za scenarije u kojima je latencija, privatnost ili nedostupnost interneta problem.

Činjenica da Gemma 4, koji je dio Googleove nove generacije otvorenih modela, uopće može raditi u 8 GB ograničenju pokazuje koliko je edge AI napredovao. Prije nekoliko godina za ovakav scenarij trebao je stolni GPU s 24 GB VRAM-a.

Kompaktnost hardvera otvara primjenu u robotici, IoT asistentima i mobilnim radnim stanicama gdje stalna cloud veza nije opcija.

Što znači “Vision Language Agent” u ovom kontekstu?

VLA je agent koji spaja jezično razumijevanje s vidom, ali ključno — autonomno odlučuje kada mu je kamera potrebna. Demo pokazuje da Gemma 4 na upit sam procjenjuje hoće li iskoristiti kameru ili odgovoriti bez vizualnog ulaza.

Nema hardkodiranih pravila tipa “ako pitanje sadrži riječ ‘vidiš’, uključi kameru”. Model rezonira o tome je li mu za kvalitetan odgovor potreban vizualni kontekst i prema tome delegira alate. To je agentic ponašanje koje se obično veže uz velike cloud modele — ovdje radi na edge hardveru.

Takav pristup pokazuje pomak od pasivnih multimodalnih modela prema aktivnim agentima koji sami biraju alate.

Koji dijelovi pipelinea rade bez clouda?

Cjeloviti pipeline izvodi se lokalno: speech-to-text pretvara korisnikov govor u tekst, Gemma 4 obavlja rezoniranje i odlučivanje o korištenju alata, a TTS (text-to-speech) vraća odgovor u govornom obliku. Svi koraci teku kroz Jetson uređaj bez mrežnih poziva.

Korisničke prednosti su konkretne: nema latencije uslijed putovanja podataka do cloud centra, osjetljivi vizualni i govorni podaci ne napuštaju uređaj, a sustav radi i bez internetske veze. Za robotiku, medicinske uređaje ili industrijske primjene to mijenja arhitektonske pretpostavke.

Demonstracija je praktični signal da se agentic AI postupno seli na edge.

Gemma 4 pokrenut kao Vision Language Agent lokalno na Jetson Orin Nano Super

Koji hardver pokreće Gemma 4 u ovom demou?

Što znači “Vision Language Agent” u ovom kontekstu?

Koji dijelovi pipelinea rade bez clouda?

Izvori

Povezane vijesti