AWS: AgentCore Browser が OS レベルのアクションを取得——8 つの新しいプリミティブ
AWS は 5 月 5 日に Amazon Bedrock AgentCore Browser の OS レベルアクションを発表しました。これにより、エージェントが DOM の範囲外でオペレーティングシステムのネイティブインターフェースと対話できるようになります。8 つのアクションとアクション・スクリーンショット・リアクションループが導入され、追加設定なしで利用可能です。
この記事はAIにより一次情報源から生成されました。
AWS は何を発表しましたか?
Amazon Web Services は 5 月 5 日、Amazon Bedrock AgentCore Browser の OS レベルアクションを発表しました。これはエージェントが DOM の境界を越えてオペレーティングシステムのネイティブインターフェースと対話できる新機能です。この機能はすべての AgentCore Browser ユーザーが追加設定なしで即座に利用できます。
DOM(ドキュメントオブジェクトモデル)は、ブラウザが Playwright などの自動化ツールに提供する HTML ページの構造化表現です。
エージェントにとってなぜこれが重要なのですか?
これまでエージェントは Playwright を通じて HTML 要素のみを操作できました。システムダイアログ——印刷ウィンドウ、証明書、セキュリティプロンプト——が表示された場合、エージェントは実質的に「停止」していました。スクリーンショットで見ることはできても、DOM に属さないものをクリックするメカニズムがありませんでした。
新しいアクションセットはまさにそのギャップを埋め、ブラウザの境界を越えるワークフローをエージェントに開放します。
新しいアクションセットにはどのようなプリミティブが含まれますか?
8 つのアクションはキーボード、マウス、スクリーンショットをカバーします:
mouseClick、mouseMove、mouseDrag、mouseScroll:ポインタジェスチャ用keyType、keyPress、keyShortcut:テキスト入力とキーの組み合わせ用screenshot:OS デスクトップ全体をキャプチャ(ブラウザのビューポートだけでなく)
デスクトップのスクリーンショットはエージェントにとって重要です——マシンの完全な状態を把握できます。
作業パターンはどのようなものですか?
パターンはアクション・スクリーンショット・リアクションループです:エージェントがアクションを送信し、AgentCore がオペレーティングシステム上でそれを実行し、エージェントがスクリーンショットをリクエストし、ビジョンモデルが新しい状態を分析して次のアクションを決定します。タスクが完了するまでサイクルが繰り返されます。
このアプローチはコンピュータを観察・変更可能な状態として扱っており、人間がコンピュータを使用する方法と同様のパターンです。
よくある質問
- 新しいアクションセットにはどのようなアクションが含まれますか?
- 8 つのプリミティブ:mouseClick、mouseMove、mouseDrag、mouseScroll、keyType、keyPress、keyShortcut、そして OS デスクトップ全体をキャプチャする screenshot です。
- 追加の設定は必要ですか?
- いいえ。この機能はすべての AgentCore Browser ユーザーが追加設定なしで即座に利用できます。
- エージェントはシステムダイアログにどのように対応しますか?
- アクション・スクリーンショット・リアクションループを通じて:エージェントがアクションを送信し、AgentCore がそれを実行し、スクリーンショットを取得し、ビジョンモデルが状態を分析して次のアクションを決定します。