GitHub Copilot Vision 和浏览器工具:同日两项功能正式发布
GitHub 宣布两项 Copilot 功能正式发布(GA):Vision 支持在聊天提示中附加图片和 PDF,浏览器工具使 VS Code 中的智能体能够控制真实浏览器。两项功能均对所有套餐开放,无需管理员操作。
本文由人工智能基于一手来源生成。
GitHub 于 2026 年 7 月 1 日同日宣布两项重要 Copilot 功能正式发布:Vision(此前需要在 Business 和 Enterprise 套餐中进行特殊策略配置)和 VS Code 中的浏览器工具(首次使智能体能够控制真实的、实时的浏览器)。两项功能均无需管理员操作即可供所有用户使用。
Copilot Vision 现在能做什么?
Copilot Vision 支持在聊天提示中附加视觉材料,使 Copilot 能够结合代码对图片和文档的内容进行推理。支持的格式包括 JPEG、PNG、GIF 和 WebP,以及 PDF 文档。
在 VS Code 中,文件可以通过三种方式附加:粘贴、拖放或右键单击文件。在 github.com 上,附加文件可在聊天界面中直接操作,而 Copilot CLI 支持在终端中指定文件路径。
实际使用场景包括结合实现讨论分析设计模型、诊断错误截图、推理架构图以及处理 PDF 格式的技术文档——所有这些都在与 Copilot 的单一对话中完成,无需在工具之间切换。
Vision 可在所有工作模式下使用:ask、plan 和 agent。
可用性:所有套餐,无需管理员操作
正式发布公告中的关键变化是默认可用性。此前,Business 和 Enterprise 套餐的用户需要启用「Editor Preview Features」策略才能访问 Vision 功能。从 2026 年 7 月 1 日起,该要求不再存在。
Vision 在所有套餐上默认启用——Free、Pro、Pro+、Business 和 Enterprise——无需任何管理员操作。这消除了因批准预览功能流程而推迟激活的组织的行政障碍。
Business 和 Enterprise 用户的唯一特殊说明:附加的图片和 PDF 会保留约 24 小时用于提供服务。
浏览器工具:在 VS Code 中控制浏览器
与 Vision 正式发布同步,GitHub 还宣布 VS Code 中的浏览器工具正式发布——该功能首次使 Copilot 智能体能够直接控制真实的、实时的浏览器,而非模拟环境。
智能体通过浏览器工具可以执行以下操作:
- 导航——打开 URL 并浏览页面
- 交互——点击、输入、悬停、拖放、管理对话框
- 读取——获取页面内容和 DOM 元素属性
- 诊断——捕获控制台错误和 JavaScript 异常
- 截图——捕获当前页面状态
并行智能体可以同时保持相互独立的隔离浏览器会话,与用户在浏览器中的自身活动相互独立。
隐私和细粒度权限
GitHub 在设计浏览器工具时将用户隐私作为明确优先考虑。打开的标签页保持私密——没有用户操作就无法读取。用户必须通过「与智能体共享」选项明确与智能体共享标签页。
对于敏感权限——访问摄像头、麦克风、位置和读取剪贴板——系统在每次使用时都会要求明确批准,而非在安装或启动智能体时一次性授权。这意味着智能体在没有用户为每个单独操作主动同意的情况下,无法访问这些资源。
Enterprise 的管理员功能
对于 Enterprise 组织,浏览器工具提供细粒度控制:
- 切换
workbench.browser.enableChatTools以在组织级别启用或禁用浏览器工具 - 域过滤器,限制智能体可以导航的域,防止未经授权访问外部内容
这些控制使组织能够在受控环境中使用浏览器工具——例如限制为内部开发服务器或测试环境域——而无需完全禁用该功能。
同日两项正式发布
Vision 和浏览器工具同日正式发布并非偶然。两项功能都将 Copilot 的覆盖范围扩展到文本和代码之外——Vision 扩展至视觉材料和文档,浏览器工具扩展至开发或生产中 Web 应用的实际状态。
与同日 Kimi K2.7 Code 作为首款开放权重模型进入 Copilot 以及 GitHub Models 平台将于 2026 年 7 月 30 日关闭的公告一起,这一日期成为 GitHub AI 战略的重要里程碑:更少的独立平台,更多整合在一个无需额外配置即可供所有人使用的工具中的功能。
常见问题
- Copilot Vision 能对附加的图片和 PDF 做什么?
- Copilot 可以结合代码对附加文件的视觉内容进行推理——分析设计模型、图表、错误截图或技术文档,并在代码讨论的上下文中使用。
- GitHub Copilot 中的浏览器工具是什么,它们有什么用途?
- 浏览器工具使 Copilot 智能体能够控制真实浏览器——导航、点击、输入、读取内容、捕获控制台错误和截图。并行智能体可保持与用户活动相互独立的隔离会话。
- 管理员需要做什么来启用 Vision 功能吗?
- 不需要。Vision 从正式发布起在所有套餐(包括 Business 和 Enterprise)上默认启用,无需管理员配置。之前对「Editor Preview Features」策略的要求已不再适用。