🔴 🤝 Agenten Veröffentlicht: · 2 Min. Lesezeit ·

Google: Computer Use in Gemini 3.5 Flash — KI-Agenten für Browser, Mobilgerät und Desktop

Redaktionelle Illustration: KI-Agent, der Browser und mobile Oberflächen auf mehreren Bildschirmen steuert

Google hat das Computer-Use-Werkzeug in Gemini 3.5 Flash integriert, sodass KI-Agenten Browser, Mobilgeräte und Desktop-Anwendungen eigenständig steuern können. Das Modell erzielt das bisher beste OSWorld-Ergebnis mit Enterprise-Schutz vor Prompt-Injection-Angriffen.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Google hat das Computer-Use-Werkzeug direkt in Gemini 3.5 Flash integriert und bringt damit die Fähigkeit zur Steuerung von Computer-Oberflächen — bisher dem separaten Gemini 2.5 vorbehalten — in ein deutlich zugänglicheres und schnelleres Modell.

Was sind Computer-Use-Agenten?

Computer-Use-Agenten sind KI-Systeme, die nicht nur Fragen beantworten, sondern eigenständig grafische Benutzeroberflächen steuern: Sie öffnen Anwendungen, klicken auf Schaltflächen, füllen Formulare aus und erledigen mehrschrittige Aufgaben in Browsern, auf Mobilgeräten und in Desktop-Umgebungen. Im Gegensatz zu klassischen Chatbots, die Text generieren, führen diese Agenten Aktionen in echten digitalen Umgebungen aus.

Gemini 3.5 Flash vs. Gemini 2.5 — Demokratisierung des Zugangs

Die wesentliche Änderung ist keine technische Innovation, sondern eine Demokratisierung: Computer Use war bisher ausschließlich im eigenständigen Gemini-2.5-Modell verfügbar. Die Integration in Gemini 3.5 Flash — das auf Geschwindigkeit und Wirtschaftlichkeit optimiert ist — bedeutet, dass Enterprise-Teams und Entwickler agentische Workflows zu deutlich niedrigeren Kosten pro Token betreiben können.

Im OSWorld-Benchmark, dem standardisierten Test zur Messung der Fähigkeit von KI-Agenten, Aufgaben in echten Betriebssystemen auszuführen, erzielt Gemini 3.5 Flash mit Computer Use das bisher beste Ergebnis für agentische Aufgaben in Googles Modellen. OSWorld umfasst Szenarien wie Webbrowsing, Dateimanipulation und die Arbeit mit Büroanwendungen — was ihn relevanter als synthetische Tests macht.

Unterstützte Umgebungen und Enterprise-Schutzmaßnahmen

Das Modell unterstützt drei Umgebungsklassen: Browser (Webanwendungen und -seiten), Mobile (Android- und iOS-Oberflächen) und Desktop (Windows, macOS, Linux-Anwendungen). Eine Demo-Integration ist über die Browserbase-Plattform verfügbar.

Sicherheit war die zentrale Herausforderung für Computer-Use-Agenten aufgrund von Prompt-Injection-Angriffen — Situationen, in denen bösartiger Inhalt auf dem Bildschirm (z. B. versteckter Text auf einer Webseite) versucht, den Agenten zu übernehmen und zu unautorisierten Aktionen zu verleiten. Google hat adversariales Training angewandt, bei dem das Modell Tausenden simulierter Injection-Szenarien ausgesetzt wurde. Zusätzlich verlangt das System eine ausdrückliche Nutzerbestätigung vor sensiblen Aktionen und bricht die Ausführung automatisch bei erkannter Manipulation ab.

Verfügbarkeit

Computer Use in Gemini 3.5 Flash ist über die Gemini API und die Google Enterprise Agent Platform verfügbar. Entwickler können sofort mit dem Aufbau agentischer Anwendungen beginnen, ohne auf Zugang zum Premium-Gemini-2.5-Tier warten zu müssen.

Dieser Schritt signalisiert klar Googles Richtung: Computer-Use-Agenten sind keine experimentelle Funktion, sondern werden zum Standardbestandteil der KI-Produktionsinfrastruktur.

Häufig gestellte Fragen

Was sind Computer-Use-Agenten und wodurch unterscheiden sie sich von klassischen KI-Chatbots?
Computer-Use-Agenten sind KI-Systeme, die eigenständig grafische Benutzeroberflächen steuern können — klicken, tippen, scrollen und Aufgaben in echten Anwendungen ausführen, ohne menschliches Eingreifen bei jedem Schritt.
Wie schützt Google Nutzer vor Prompt-Injection-Angriffen bei Computer Use?
Google setzt auf adversariales Training, verlangt ausdrückliche Nutzerbestätigung für sensible Aktionen und hat einen automatischen Abbruch eingeführt, sobald das System einen Prompt-Injection-Versuch erkennt.