AWS: AgentCore Browser에 OS 수준 작업 추가——8개의 새로운 기본 기능
AWS가 5월 5일 Amazon Bedrock AgentCore Browser의 OS 수준 작업을 발표했습니다. 에이전트가 DOM 범위 밖에서 운영 체제의 기본 인터페이스와 상호 작용할 수 있게 합니다. 8개의 작업과 작업-스크린샷-반응 루프를 도입하며, 추가 설정 없이 사용 가능합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
AWS가 발표한 것은 무엇입니까?
Amazon Web Services가 5월 5일 Amazon Bedrock AgentCore Browser의 OS 수준 작업을 발표했습니다. 이는 에이전트가 DOM 경계를 넘어 운영 체제의 기본 인터페이스와 상호 작용할 수 있는 새로운 기능입니다. 이 기능은 모든 AgentCore Browser 사용자가 추가 설정 없이 즉시 사용할 수 있습니다.
DOM(문서 객체 모델)은 브라우저가 Playwright와 같은 자동화 도구에 제공하는 HTML 페이지의 구조화된 표현입니다.
에이전트에게 이것이 왜 중요합니까?
이전에는 에이전트가 Playwright를 통해 HTML 요소만 관리할 수 있었습니다. 시스템 대화 상자——인쇄 창, 인증서 또는 보안 프롬프트——가 나타나면 에이전트는 사실상 “멈추게” 됩니다. 스크린샷에서는 볼 수 있었지만 DOM에 속하지 않는 것을 클릭하는 메커니즘이 없었습니다.
새로운 작업 세트는 바로 그 간격을 메워 에이전트가 브라우저 경계를 넘는 워크플로우를 처리할 수 있게 합니다.
새 작업 세트가 도입하는 기본 기능은 무엇입니까?
8개의 작업이 키보드, 마우스, 스크린샷을 포함합니다:
mouseClick,mouseMove,mouseDrag,mouseScroll: 포인터 제스처용keyType,keyPress,keyShortcut: 텍스트 입력 및 키 조합용screenshot: 전체 OS 데스크톱 캡처(브라우저 뷰포트만이 아닌)
데스크톱 스크린샷은 에이전트에게 중요합니다——기기 상태를 완전히 파악할 수 있게 해줍니다.
작업 패턴은 어떻게 생겼습니까?
패턴은 작업-스크린샷-반응 루프입니다: 에이전트가 작업을 보내고, AgentCore가 운영 체제에서 이를 실행하고, 에이전트가 스크린샷을 요청하고, 비전 모델이 새 상태를 분석하고 다음 작업을 결정합니다. 작업이 완료될 때까지 사이클이 반복됩니다.
이 접근 방식은 컴퓨터를 관찰 및 수정 가능한 상태로 취급하며, 인간이 컴퓨터를 사용하는 방식과 유사한 패턴입니다.
자주 묻는 질문
- 새 작업 세트에는 어떤 작업이 포함됩니까?
- 8개의 기본 기능: mouseClick, mouseMove, mouseDrag, mouseScroll, keyType, keyPress, keyShortcut, 그리고 전체 OS 데스크톱을 캡처하는 screenshot.
- 추가 설정이 필요합니까?
- 아니요. 이 기능은 모든 AgentCore Browser 사용자가 추가 설정 없이 즉시 사용할 수 있습니다.
- 에이전트는 시스템 대화 상자에 어떻게 반응합니까?
- 작업-스크린샷-반응 루프를 통해: 에이전트가 작업을 보내고, AgentCore가 이를 실행하고, 스크린샷을 촬영하고, 비전 모델이 상태를 분석하고 다음 작업을 결정합니다.