AWS AgentCore Browser: 8 OS-Level-Aktionen für Agenten

AWS hat am 5. Mai OS Level Actions für Amazon Bedrock AgentCore Browser angekündigt — eine Funktion, die Agenten die Interaktion mit der nativen Betriebssystemoberfläche außerhalb des DOM ermöglicht. Eingeführt werden 8 Aktionen und eine Action-Screenshot-Reaction-Schleife, ohne zusätzliche Konfiguration verfügbar.

Was hat AWS angekündigt?

Amazon Web Services stellte am 5. Mai OS Level Actions für Amazon Bedrock AgentCore Browser vor — eine neue Funktion, die Agenten ermöglicht, die DOM-Grenzen zu verlassen und mit der nativen Betriebssystemoberfläche zu interagieren. Die Funktion steht allen AgentCore-Browser-Nutzern ohne zusätzliche Konfiguration zur Verfügung.

DOM (Document Object Model) ist die strukturierte HTML-Darstellung einer Seite, die ein Browser Automatisierungswerkzeugen wie Playwright zur Verfügung stellt.

Warum ist das für Agenten wichtig?

Bislang konnten Agenten nur HTML-Elemente über Playwright steuern. Erschien ein Systemdialog — ein Druckfenster, ein Zertifikatsprompt oder eine Sicherheitswarnung — blieb der Agent faktisch stehen. Er konnte ihn im Screenshot sehen, hatte aber keinen Mechanismus, etwas außerhalb des DOM anzuklicken.

Das neue Aktionsset schließt genau diese Lücke und öffnet Agenten Workflows, die die Browser-Grenze überschreiten.

Welche Primitiven führt das neue Set ein?

Acht Aktionen decken Tastatur, Maus und Screenshot ab:

mouseClick, mouseMove, mouseDrag, mouseScroll für Zeigergesten
keyType, keyPress, keyShortcut für Texteingabe und Tastenkombinationen
screenshot, das den gesamten OS-Desktop aufnimmt (nicht nur den Browser-Viewport)

Die vollständige Desktop-Aufnahme ist für Agenten entscheidend — sie gibt ihnen ein vollständiges Bild des Maschinenzustands.

Wie sieht das Arbeitsmuster aus?

Das Muster ist eine Action-Screenshot-Reaction-Schleife: Der Agent sendet eine Aktion, AgentCore führt sie gegen das Betriebssystem aus, der Agent fordert einen Screenshot an, ein Vision-Modell analysiert den neuen Zustand und entscheidet die nächste Aktion. Der Zyklus wiederholt sich, bis die Aufgabe abgeschlossen ist.

Dieser Ansatz behandelt den Computer als einen Zustand, der beobachtet und verändert wird — dasselbe Muster, das auch ein Mensch beim Bedienen eines Computers verwendet.

Häufig gestellte Fragen

Welche Aktionen enthält das neue Set?

Acht Primitiven: mouseClick, mouseMove, mouseDrag, mouseScroll, keyType, keyPress, keyShortcut und screenshot, der den gesamten OS-Desktop aufnimmt.

Ist zusätzliche Konfiguration nötig?

Nein. Die Funktion steht allen AgentCore-Browser-Nutzern sofort ohne weiteren Einrichtungsaufwand zur Verfügung.

Wie reagiert der Agent auf Systemdialoge?

Über eine Action-Screenshot-Reaction-Schleife: Der Agent sendet eine Aktion, AgentCore führt sie aus, ein Screenshot wird aufgenommen, ein Vision-Modell analysiert den Zustand und entscheidet den nächsten Schritt.

AWS: AgentCore Browser erhält OS-Level-Aktionen — 8 neue Primitiven

Was hat AWS angekündigt?

Warum ist das für Agenten wichtig?

Welche Primitiven führt das neue Set ein?

Wie sieht das Arbeitsmuster aus?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten