🟡 🤝 智能体 2026年5月5日星期二 · 2 分钟阅读 ·

ArXiv GUI-SD:首个面向GUI定位的在线自蒸馏框架,在六个基准上超越GRPO强化学习

编辑插图:带有GUI元素特权视觉上下文的师生动态,自蒸馏的象征

Yan Zhang、Daiqing Wu和Huawen Shen发布了GUI-SD——首个专为GUI定位设计的在线自蒸馏(OPSD)框架,这是AI智能体将自然语言指令映射到界面元素视觉坐标的能力。系统使用特权视觉上下文(边界框和高斯软掩码)及熵引导蒸馏。在六个代表性GUI定位基准上,GUI-SD持续超越基于GRPO的强化学习方法。

🤖

本文由人工智能基于一手来源生成。

Yan Zhang、Daiqing Wu和Huawen Shen于2026年5月1日在ArXiv上发布了论文**《从自身学习点击位置:GUI定位的在线自蒸馏》。他们提出了GUI-SD**——首个专为GUI定位任务设计的OPSD(在线自蒸馏)框架。

什么是GUI定位,为什么它是智能体的基础?

GUI定位是将自然语言指令(如「点击保存按钮」)映射到屏幕上目标元素精确视觉坐标的能力。没有这种能力,自主GUI智能体就无法真正导航计算机应用程序——它只能向用户建议点击什么。

2026年,GUI智能体是一个不断增长的类别(Anthropic Claude Computer Use、OpenAI Operator、Google Gemini Computer Use)。所有这些智能体都受到定位准确性的限制:如果智能体说「点击保存」但坐标偏差了20像素,就会点到错误的地方,工作流就会失败。

为什么选择自蒸馏而非强化学习?

最近的强化学习方法(如GRPO——组相对策略优化)取得了强大的结果,但作者指出它们有两个严重缺陷:

  1. 昂贵的多次展开 — 每个训练步骤需要多次运行模型以生成答案分布
  2. 困难样本的稀疏信号 — 当模型持续出错时,强化学习梯度实际上消失

在线自蒸馏(OPSD)解决了这两个问题。它从单次展开中提供密集的令牌级监督信号——输出中的每个令牌都有明确的训练目标,无论整个轨迹是否成功。这使训练更高效、更稳定。

GUI-SD是首个专为GUI定位设计的OPSD框架。之前的OPSD工作主要覆盖自然语言处理任务或分类任务。

GUI-SD有什么独特之处?

系统使用两个关键机制:

特权视觉上下文 — 教师模型接收带有目标边界框和高斯软掩码的增强图像。软掩码给教师提供强烈的目标位置提示,但不透露精确坐标,因此教师仍必须「思考」像素化问题。这解决了自蒸馏的经典问题——教师不能比学生信息量大太多,否则会成为「作弊者」而非教师。

熵引导蒸馏 — 令牌权重取决于两件事:(a)坐标输出中数位的重要性(例如坐标最高位比最低位更重要);(b)教师在该位置的可信度。同时重要且可信的令牌获得更大权重,将优化集中在最有价值的地方。

改进幅度有多大?

六个代表性GUI定位基准上的实验表明,GUI-SD在两个维度上持续超越GRPO方法和朴素OPSD:

  • 定位准确率(最终决定智能体成功的值)
  • 训练效率(达到相同结果所需的计算更少)

论文正文给出了每个基准的具体数字,但摘要很清楚:单次展开+熵引导加权+教师特权上下文的组合是定位训练的主导设计

论文在ArXiv上的ID为2605.00642。

常见问题

什么是GUI定位,为什么它对智能体至关重要?
GUI定位是将自然语言指令(如「点击保存」)映射到屏幕上目标元素精确视觉坐标的能力。这是自主GUI智能体在不依赖API的情况下真正导航计算机应用程序的基础能力。
为什么在线自蒸馏优于GUI强化学习?
GRPO等强化学习方法依赖昂贵的多次展开,在困难样本上受到稀疏信号影响。OPSD从单次展开中提供密集的令牌级监督信号,使训练更高效、更稳定。
熵引导蒸馏如何工作?
系统根据数位重要性和教师可信度自适应地加权令牌,将优化集中在最有影响力和最可靠的位置。既重要又可信的令牌比微不足道但不确定的令牌获得更大的权重。