GUI-SD：GUI智能体的自蒸馏优于GRPO强化学习

Yan Zhang、Daiqing Wu和Huawen Shen发布了GUI-SD——首个专为GUI定位设计的在线自蒸馏（OPSD）框架，这是AI智能体将自然语言指令映射到界面元素视觉坐标的能力。系统使用特权视觉上下文（边界框和高斯软掩码）及熵引导蒸馏。在六个代表性GUI定位基准上，GUI-SD持续超越基于GRPO的强化学习方法。

Yan Zhang、Daiqing Wu和Huawen Shen于2026年5月1日在ArXiv上发布了论文**《从自身学习点击位置：GUI定位的在线自蒸馏》。他们提出了GUI-SD**——首个专为GUI定位任务设计的OPSD（在线自蒸馏）框架。

什么是GUI定位，为什么它是智能体的基础？

GUI定位是将自然语言指令（如「点击保存按钮」）映射到屏幕上目标元素精确视觉坐标的能力。没有这种能力，自主GUI智能体就无法真正导航计算机应用程序——它只能向用户建议点击什么。

2026年，GUI智能体是一个不断增长的类别（Anthropic Claude Computer Use、OpenAI Operator、Google Gemini Computer Use）。所有这些智能体都受到定位准确性的限制：如果智能体说「点击保存」但坐标偏差了20像素，就会点到错误的地方，工作流就会失败。

为什么选择自蒸馏而非强化学习？

最近的强化学习方法（如GRPO——组相对策略优化）取得了强大的结果，但作者指出它们有两个严重缺陷：

昂贵的多次展开 — 每个训练步骤需要多次运行模型以生成答案分布
困难样本的稀疏信号 — 当模型持续出错时，强化学习梯度实际上消失

在线自蒸馏（OPSD）解决了这两个问题。它从单次展开中提供密集的令牌级监督信号——输出中的每个令牌都有明确的训练目标，无论整个轨迹是否成功。这使训练更高效、更稳定。

GUI-SD是首个专为GUI定位设计的OPSD框架。之前的OPSD工作主要覆盖自然语言处理任务或分类任务。

GUI-SD有什么独特之处？

系统使用两个关键机制：

特权视觉上下文 — 教师模型接收带有目标边界框和高斯软掩码的增强图像。软掩码给教师提供强烈的目标位置提示，但不透露精确坐标，因此教师仍必须「思考」像素化问题。这解决了自蒸馏的经典问题——教师不能比学生信息量大太多，否则会成为「作弊者」而非教师。

熵引导蒸馏 — 令牌权重取决于两件事：（a）坐标输出中数位的重要性（例如坐标最高位比最低位更重要）；（b）教师在该位置的可信度。同时重要且可信的令牌获得更大权重，将优化集中在最有价值的地方。

改进幅度有多大？

在六个代表性GUI定位基准上的实验表明，GUI-SD在两个维度上持续超越GRPO方法和朴素OPSD：

定位准确率（最终决定智能体成功的值）
训练效率（达到相同结果所需的计算更少）

论文正文给出了每个基准的具体数字，但摘要很清楚：单次展开+熵引导加权+教师特权上下文的组合是定位训练的主导设计。

论文在ArXiv上的ID为2605.00642。

常见问题

什么是GUI定位，为什么它对智能体至关重要？

GUI定位是将自然语言指令（如「点击保存」）映射到屏幕上目标元素精确视觉坐标的能力。这是自主GUI智能体在不依赖API的情况下真正导航计算机应用程序的基础能力。

为什么在线自蒸馏优于GUI强化学习？

GRPO等强化学习方法依赖昂贵的多次展开，在困难样本上受到稀疏信号影响。OPSD从单次展开中提供密集的令牌级监督信号，使训练更高效、更稳定。

熵引导蒸馏如何工作？

系统根据数位重要性和教师可信度自适应地加权令牌，将优化集中在最有影响力和最可靠的位置。既重要又可信的令牌比微不足道但不确定的令牌获得更大的权重。

ArXiv GUI-SD：首个面向GUI定位的在线自蒸馏框架，在六个基准上超越GRPO强化学习

什么是GUI定位，为什么它是智能体的基础？

为什么选择自蒸馏而非强化学习？

GUI-SD有什么独特之处？

改进幅度有多大？

常见问题

来源

相关新闻