Google: Computer Use u Gemini 3.5 Flash — agenti za browser, mobitel i desktop
Google je integrirao Computer Use alat u Gemini 3.5 Flash, omogućujući AI agentima da samostalno upravljaju browserom, mobilnim uređajima i desktop aplikacijama. Model postiže najbolji OSWorld rezultat dosad, uz enterprise zaštite od prompt injection napada.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Google je objavio integraciju Computer Use alata izravno u Gemini 3.5 Flash, dovodeći sposobnost upravljanja računalnim sučeljima — do sada rezerviranu za zasebni Gemini 2.5 — u znatno pristupačniji i brži model.
Što su computer use agenti?
Computer use agenti su AI sustavi koji ne samo odgovaraju na pitanja, već samostalno upravljaju grafičkim sučeljem računala: otvaraju aplikacije, klikaju gumbe, ispunjavaju forme i dovršavaju višekorake zadatke u browserima, mobilnim uređajima i desktop okruženjima. Za razliku od klasičnih chatbotova koji generiraju tekst, ovi agenti izvršavaju radnje u stvarnom digitalnom okruženju.
Gemini 3.5 Flash vs Gemini 2.5 — proširenje pristupa
Ključna promjena nije tehnička inovacija, već demokratizacija: Computer Use je prethodno bio dostupan isključivo u standalone Gemini 2.5 modelu. Integracija u Gemini 3.5 Flash — koji je optimiziran za brzinu i ekonomičnost — znači da enterprise timovi i developeri mogu pokretati agentske workflow-e na znatno nižim troškovima po tokenu.
Na OSWorld benchmarku, standardiziranom testu koji mjeri sposobnost AI agenata da izvršavaju zadatke u stvarnim operacijskim sustavima, Gemini 3.5 Flash s Computer Use postiže najbolji rezultat dosad zabilježen za agentske zadatke u Google-ovim modelima. OSWorld uključuje scenarije poput web browsinga, manipulacije datotekama i rada s uredskim aplikacijama — što ga čini relevantnijim od sintetičkih testova.
Podržana okruženja i enterprise zaštite
Model podržava tri klase okruženja: browser (web aplikacije i stranice), mobile (Android i iOS sučelja) i desktop (Windows, macOS, Linux aplikacije). Demo integracija dostupna je preko Browserbase platforme.
Sigurnost je bila centralni izazov za computer use agente zbog prompt injection napada — situacija gdje zlonamjerni sadržaj na zaslonu (npr. skriveni tekst na web stranici) pokušava preuzeti kontrolu nad agentom i natjerati ga da izvede neovlaštene radnje. Google je primijenio adversarial training pri kojem je model izložen tisućama simuliranih injection scenarija. Uz to, sustav zahtijeva eksplicitnu potvrdu korisnika prije osjetljivih akcija i automatski prekida izvođenje pri detekciji manipulacije.
Dostupnost
Computer Use u Gemini 3.5 Flash dostupan je u Gemini API-ju i Google Enterprise Agent Platform. Developeri mogu odmah početi graditi agentske aplikacije bez čekanja na pristup premium Gemini 2.5 tieru.
Potez jasno signalizira Googleov smjer: computer use agenti nisu eksperimentalna značajka, već postaju standardni dio production AI infrastrukture.
Česta pitanja
- Što su computer use agenti i čime se razlikuju od klasičnih AI chatbotova?
- Computer use agenti su AI sustavi koji mogu samostalno upravljati grafičkim sučeljem računala — klikati, tipkati, scrollati i izvršavati zadatke u stvarnim aplikacijama, bez ljudske intervencije za svaki korak.
- Kako Google štiti korisnike od prompt injection napada u Computer Use?
- Google primjenjuje adversarial training, zahtijeva eksplicitnu potvrdu korisnika za osjetljive akcije i uveo je automatski prekid izvođenja čim sustav detektira pokušaj prompt injection napada.
Povezane vijesti
Anthropic: Claude Code v2.1.191 — /rewind naredba, 37% manje CPU-a, MCP retry logika
LangChain: kako dati AI agentu memoriju — capture, analyze, update preko LangSmitha
Anthropic: Claude Code v2.1.187 — sandbox credentials zaštita, org restrikcije modela, CJK fix