ArXiv GUI-SD:GUIグラウンディング向け初のオンポリシー自己蒸留フレームワーク、6つのベンチマークでGRPO強化学習を凌駕
Yan Zhang、Daiqing Wu、Huawen ShenがGUI-SDを発表しました——AIエージェントが自然言語の指示をUI要素の視覚座標にマッピングする能力であるGUIグラウンディングに特化した初のオンポリシー自己蒸留(OPSD)フレームワークです。特権的視覚コンテキスト(バウンディングボックスとガウスソフトマスク)とエントロピーガイド蒸留を使用します。6つの代表的なGUIグラウンディングベンチマークで、GUI-SDはGRPOベースのRL手法を一貫して上回ります。