🔴 🤝 Agenti Objavljeno: · 2 min čitanja ·

Google: Computer Use u Gemini 3.5 Flash — agenti za browser, mobitel i desktop

Editorial illustration: AI agent koji upravlja browserom i mobilnim sučeljima na višestrukim ekranima

Google je integrirao Computer Use alat u Gemini 3.5 Flash, omogućujući AI agentima da samostalno upravljaju browserom, mobilnim uređajima i desktop aplikacijama. Model postiže najbolji OSWorld rezultat dosad, uz enterprise zaštite od prompt injection napada.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Google je objavio integraciju Computer Use alata izravno u Gemini 3.5 Flash, dovodeći sposobnost upravljanja računalnim sučeljima — do sada rezerviranu za zasebni Gemini 2.5 — u znatno pristupačniji i brži model.

Što su computer use agenti?

Computer use agenti su AI sustavi koji ne samo odgovaraju na pitanja, već samostalno upravljaju grafičkim sučeljem računala: otvaraju aplikacije, klikaju gumbe, ispunjavaju forme i dovršavaju višekorake zadatke u browserima, mobilnim uređajima i desktop okruženjima. Za razliku od klasičnih chatbotova koji generiraju tekst, ovi agenti izvršavaju radnje u stvarnom digitalnom okruženju.

Gemini 3.5 Flash vs Gemini 2.5 — proširenje pristupa

Ključna promjena nije tehnička inovacija, već demokratizacija: Computer Use je prethodno bio dostupan isključivo u standalone Gemini 2.5 modelu. Integracija u Gemini 3.5 Flash — koji je optimiziran za brzinu i ekonomičnost — znači da enterprise timovi i developeri mogu pokretati agentske workflow-e na znatno nižim troškovima po tokenu.

Na OSWorld benchmarku, standardiziranom testu koji mjeri sposobnost AI agenata da izvršavaju zadatke u stvarnim operacijskim sustavima, Gemini 3.5 Flash s Computer Use postiže najbolji rezultat dosad zabilježen za agentske zadatke u Google-ovim modelima. OSWorld uključuje scenarije poput web browsinga, manipulacije datotekama i rada s uredskim aplikacijama — što ga čini relevantnijim od sintetičkih testova.

Podržana okruženja i enterprise zaštite

Model podržava tri klase okruženja: browser (web aplikacije i stranice), mobile (Android i iOS sučelja) i desktop (Windows, macOS, Linux aplikacije). Demo integracija dostupna je preko Browserbase platforme.

Sigurnost je bila centralni izazov za computer use agente zbog prompt injection napada — situacija gdje zlonamjerni sadržaj na zaslonu (npr. skriveni tekst na web stranici) pokušava preuzeti kontrolu nad agentom i natjerati ga da izvede neovlaštene radnje. Google je primijenio adversarial training pri kojem je model izložen tisućama simuliranih injection scenarija. Uz to, sustav zahtijeva eksplicitnu potvrdu korisnika prije osjetljivih akcija i automatski prekida izvođenje pri detekciji manipulacije.

Dostupnost

Computer Use u Gemini 3.5 Flash dostupan je u Gemini API-ju i Google Enterprise Agent Platform. Developeri mogu odmah početi graditi agentske aplikacije bez čekanja na pristup premium Gemini 2.5 tieru.

Potez jasno signalizira Googleov smjer: computer use agenti nisu eksperimentalna značajka, već postaju standardni dio production AI infrastrukture.

Česta pitanja

Što su computer use agenti i čime se razlikuju od klasičnih AI chatbotova?
Computer use agenti su AI sustavi koji mogu samostalno upravljati grafičkim sučeljem računala — klikati, tipkati, scrollati i izvršavati zadatke u stvarnim aplikacijama, bez ljudske intervencije za svaki korak.
Kako Google štiti korisnike od prompt injection napada u Computer Use?
Google primjenjuje adversarial training, zahtijeva eksplicitnu potvrdu korisnika za osjetljive akcije i uveo je automatski prekid izvođenja čim sustav detektira pokušaj prompt injection napada.