Google: Gemini 3.5 Flash에 Computer Use — 브라우저, 모바일, 데스크톱 에이전트
Google이 Gemini 3.5 Flash에 Computer Use 도구를 통합해 AI 에이전트가 브라우저, 모바일 기기, 데스크톱 애플리케이션을 자율적으로 제어할 수 있게 되었습니다. 모델은 역대 최고 OSWorld 결과를 달성했으며, 프롬프트 인젝션 공격에 대한 엔터프라이즈 보호도 제공합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Google이 Computer Use 도구를 Gemini 3.5 Flash에 직접 통합했습니다. 이전에는 별도의 Gemini 2.5에만 예약되어 있던 컴퓨터 인터페이스 제어 능력을 훨씬 더 접근하기 쉽고 빠른 모델에 제공합니다.
Computer Use 에이전트란 무엇입니까?
Computer Use 에이전트는 질문에 답변하는 것을 넘어 컴퓨터의 그래픽 인터페이스를 자율적으로 제어하는 AI 시스템입니다. 애플리케이션을 열고, 버튼을 클릭하고, 양식을 작성하고, 브라우저, 모바일 기기, 데스크톱 환경에서 다단계 작업을 완료합니다. 텍스트를 생성하는 기존 챗봇과 달리 이 에이전트는 실제 디지털 환경에서 작업을 실행합니다.
Gemini 3.5 Flash vs Gemini 2.5 — 접근성 확대
핵심 변화는 기술적 혁신이 아닌 민주화입니다. Computer Use는 이전에 독립 실행형 Gemini 2.5 모델에서만 사용 가능했습니다. 속도와 경제성에 최적화된 Gemini 3.5 Flash에 통합되었다는 것은 엔터프라이즈 팀과 개발자가 토큰당 훨씬 낮은 비용으로 에이전트 워크플로를 실행할 수 있게 됨을 의미합니다.
실제 운영 체제에서 AI 에이전트가 작업을 수행하는 능력을 측정하는 표준화된 테스트인 OSWorld 벤치마크에서 Computer Use가 탑재된 Gemini 3.5 Flash는 Google 모델의 에이전트 작업에서 역대 최고 결과를 달성했습니다. OSWorld에는 웹 브라우징, 파일 조작, 오피스 애플리케이션 작업 시나리오가 포함되어 합성 테스트보다 관련성이 높습니다.
지원 환경 및 엔터프라이즈 보호
모델은 세 가지 환경 클래스를 지원합니다. 브라우저(웹 애플리케이션 및 사이트), 모바일(Android 및 iOS 인터페이스), 데스크톱(Windows, macOS, Linux 애플리케이션). 데모 통합은 Browserbase 플랫폼을 통해 제공됩니다.
화면의 악성 콘텐츠(예: 웹 페이지의 숨겨진 텍스트)가 에이전트를 탈취해 무단 작업을 수행하게 만들려는 상황인 프롬프트 인젝션 공격 때문에 보안이 Computer Use 에이전트의 핵심 과제였습니다. Google은 수천 개의 시뮬레이션된 인젝션 시나리오에 모델을 노출시키는 적대적 훈련을 적용했습니다. 또한 시스템은 민감한 작업 전 명시적 사용자 확인을 요구하고 조작 감지 시 자동으로 실행을 중단합니다.
가용성
Gemini 3.5 Flash의 Computer Use는 Gemini API 및 Google Enterprise Agent Platform에서 제공됩니다. 개발자는 프리미엄 Gemini 2.5 티어에 대한 접근을 기다리지 않고 즉시 에이전트 애플리케이션 구축을 시작할 수 있습니다.
이 움직임은 Google의 방향을 명확히 보여줍니다. Computer Use 에이전트는 실험적 기능이 아니라 프로덕션 AI 인프라의 표준 구성 요소가 되고 있습니다.
자주 묻는 질문
- Computer Use 에이전트란 무엇이며 기존 AI 챗봇과 어떻게 다릅니까?
- Computer Use 에이전트는 컴퓨터의 그래픽 인터페이스를 자율적으로 제어하는 AI 시스템입니다 — 클릭, 타이핑, 스크롤하고 각 단계에 인간의 개입 없이 실제 애플리케이션에서 작업을 수행합니다.
- Google은 Computer Use에서 프롬프트 인젝션 공격으로부터 사용자를 어떻게 보호합니까?
- Google은 적대적 훈련을 적용하고, 민감한 작업에 대한 사용자의 명시적 확인을 요구하며, 시스템이 프롬프트 인젝션 시도를 감지하는 즉시 자동으로 실행을 중단합니다.