AWS: AgentCore Browser dobiva OS-level akcije — 8 novih primitivki
AWS je 5. svibnja objavio OS Level Actions za Amazon Bedrock AgentCore Browser, sposobnost koja agentima omogućuje interakciju s nativnim sučeljem operativnog sustava izvan DOM-a. Uvodi 8 akcija i action-screenshot-reaction petlju, dostupno bez dodatne konfiguracije.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što je AWS objavio?
Amazon Web Services je 5. svibnja predstavio OS Level Actions za Amazon Bedrock AgentCore Browser, novu sposobnost koja agentima omogućuje izlazak izvan granica DOM-a i interakciju s nativnim sučeljem operativnog sustava. Funkcionalnost je dostupna svim korisnicima AgentCore Browsera bez dodatne konfiguracije.
DOM (Document Object Model) je strukturirana reprezentacija HTML stranice koju preglednik nudi automatizacijskim alatima poput Playwrighta.
Zašto je ovo važno za agente?
Dosad su agenti mogli upravljati samo HTML elementima kroz Playwright. Kada bi se pojavio sistemski dijalog — print prozor, certifikat ili sigurnosni prompt — agent bi efektivno “stao”. Mogao ga je vidjeti na screenshotu, ali nije imao mehanizam da klikne nešto što ne pripada DOM-u.
Novi set akcija premošćuje upravo taj jaz, otvarajući agentima radne tijekove koji prelaze granicu preglednika.
Koje primitivke uvodi novi set?
Osam akcija pokriva tipkovnicu, miš i screenshot:
mouseClick,mouseMove,mouseDrag,mouseScrollza pokazivačke gestekeyType,keyPress,keyShortcutza unos teksta i kombinacije tipkiscreenshotkoji snima cijeli OS desktop (ne samo viewport preglednika)
Snimak desktopa ključan je za agente — daje im potpunu sliku stanja stroja.
Kako izgleda obrazac rada?
Uzorak je action-screenshot-reaction petlja: agent šalje akciju, AgentCore je izvodi nad operativnim sustavom, agent traži screenshot, vision model analizira novo stanje, a zatim odlučuje sljedeću akciju. Ciklus se ponavlja dok zadatak ne završi.
Ovaj pristup tretira računalo kao stanje koje se opaža i mijenja, sličan obrazac kakvim računalo koristi i čovjek.
Česta pitanja
- Koje akcije sadrži novi set?
- Osam primitivki: mouseClick, mouseMove, mouseDrag, mouseScroll, keyType, keyPress, keyShortcut i screenshot koji snima cijeli OS desktop.
- Treba li dodatna konfiguracija?
- Ne. Funkcionalnost je dostupna svim korisnicima AgentCore Browsera odmah, bez dodatnog setupa.
- Kako agent reagira na sistemske dijaloge?
- Kroz action-screenshot-reaction petlju: agent šalje akciju, AgentCore je izvodi, traži se screenshot, vision model analizira stanje i odlučuje sljedeći potez.
Povezane vijesti
Anthropic: 10 gotovih financial-services agent templatea + Claude Opus 4.7 64,37 % na Vals AI Finance benchmarku
arXiv:2605.02503: DataClaw — process-level benchmark mjeri kvalitetu procesa AI agenata u eksplorativnoj data analizi
ArXiv GUI-SD: prvi on-policy self-distillation framework za GUI grounding nadmašuje GRPO na šest benchmarkova u točnosti i efikasnosti treniranja