Google:Gemini 3.5 Flash中的Computer Use — 浏览器、手机与桌面智能体
谷歌将Computer Use工具集成到Gemini 3.5 Flash中,使AI智能体能够自主控制浏览器、移动设备和桌面应用程序。该模型取得迄今最佳OSWorld成绩,并配备企业级提示注入攻击防护。
本文由人工智能基于一手来源生成。
谷歌宣布将Computer Use工具直接集成到Gemini 3.5 Flash中,将控制计算机界面的能力——此前专属于独立的Gemini 2.5——带入一个更易访问、速度更快的模型。
什么是computer use智能体?
Computer use智能体不仅回答问题,还能自主操控计算机图形界面:打开应用程序、点击按钮、填写表单,并在浏览器、移动设备和桌面环境中完成多步骤任务。与生成文本的传统聊天机器人不同,这些智能体在真实数字环境中执行操作。
Gemini 3.5 Flash vs Gemini 2.5 — 扩大访问范围
核心变化不是技术创新,而是普及化:Computer Use此前仅在独立的Gemini 2.5模型中可用。集成到针对速度和经济性优化的Gemini 3.5 Flash中,意味着企业团队和开发者可以以显著更低的令牌成本运行智能体工作流。
在OSWorld基准——衡量AI智能体在真实操作系统中执行任务能力的标准化测试——上,带有Computer Use的Gemini 3.5 Flash取得了谷歌模型迄今最佳智能体任务成绩。OSWorld包括网页浏览、文件操作和办公应用等场景,比合成测试更具实际意义。
支持的环境与企业级防护
该模型支持三类环境:浏览器(网页应用和网站)、移动端(Android和iOS界面)及桌面(Windows、macOS、Linux应用程序)。演示集成可通过Browserbase平台访问。
安全性是computer use智能体的核心挑战,因为存在提示注入攻击风险——屏幕上的恶意内容(如网页上的隐藏文本)试图劫持智能体并让其执行未授权操作。谷歌采用了对抗训练,使模型接触了数千种模拟的注入场景。此外,系统在敏感操作前要求用户明确确认,并在检测到操纵时自动中止执行。
可用性
Gemini 3.5 Flash中的Computer Use已在Gemini API和Google企业智能体平台中提供。开发者无需等待高端Gemini 2.5访问权限即可立即开始构建智能体应用程序。
此举清晰地表明了谷歌的方向:computer use智能体不是实验性功能,而是正在成为生产AI基础设施的标准组件。
常见问题
- 什么是computer use智能体,与传统AI聊天机器人有何不同?
- Computer use智能体是能够自主操控图形界面的AI系统——可以点击、输入、滚动并在实际应用中执行任务,无需人工干预每个步骤。
- 谷歌如何保护用户免受Computer Use中的提示注入攻击?
- 谷歌采用对抗训练,要求用户对敏感操作进行明确确认,并在系统检测到提示注入尝试时自动中止执行。