🟡 🤝 智能体 2026年5月6日星期三 · 1 分钟阅读 ·

AWS: AgentCore Browser 新增 OS 级操作——8 个新原语

编辑插图:Amazon Bedrock AgentCore 环境中代理点击浏览器边界之外的系统对话框

AWS 于 5 月 5 日为 Amazon Bedrock AgentCore Browser 发布了 OS 级操作,使代理能够与操作系统原生界面进行 DOM 范围之外的交互。引入 8 个操作和操作-截图-反应循环,无需额外配置即可使用。

🤖

本文由人工智能基于一手来源生成。

AWS 发布了什么?

Amazon Web Services 于 5 月 5 日为 Amazon Bedrock AgentCore Browser 推出了 OS 级操作,这是一种使代理能够突破 DOM 边界并与操作系统原生界面交互的新功能。所有 AgentCore Browser 用户均可无需额外配置立即使用此功能。

DOM(文档对象模型)是浏览器为 Playwright 等自动化工具提供的 HTML 页面结构化表示。

这对代理为何重要?

此前,代理只能通过 Playwright 管理 HTML 元素。当出现系统对话框——打印窗口、证书或安全提示——时,代理实际上会”停止”。它能在截图中看到对话框,但没有机制来点击不属于 DOM 的内容。

新的操作集正好弥补了这一差距,使代理能够处理跨越浏览器边界的工作流程。

新操作集引入了哪些原语?

8 个操作涵盖键盘、鼠标和截图:

  • mouseClickmouseMovemouseDragmouseScroll 用于指针手势
  • keyTypekeyPresskeyShortcut 用于文本输入和组合键
  • screenshot 捕获整个操作系统桌面(不仅仅是浏览器视口)

桌面截图对代理至关重要——它使代理能够全面了解机器的状态。

工作模式是什么样的?

工作模式是操作-截图-反应循环:代理发送操作,AgentCore 在操作系统上执行该操作,代理请求截图,视觉模型分析新状态,然后决定下一步操作。该循环重复进行,直到任务完成。

这种方法将计算机视为可观察和修改的状态,与人类使用计算机的方式类似。

常见问题

新操作集包含哪些操作?
8 个原语:mouseClick、mouseMove、mouseDrag、mouseScroll、keyType、keyPress、keyShortcut,以及捕获整个操作系统桌面的 screenshot。
是否需要额外配置?
不需要。所有 AgentCore Browser 用户均可立即使用此功能,无需额外设置。
代理如何响应系统对话框?
通过操作-截图-反应循环:代理发送操作,AgentCore 执行该操作,获取截图,视觉模型分析状态并决定下一步操作。