ArXiv GUI-SD:GUI 그라운딩을 위한 최초의 온폴리시 자기 증류 프레임워크, 6개 벤치마크에서 GRPO 강화학습 능가
Yan Zhang, Daiqing Wu, Huawen Shen이 GUI-SD를 발표했습니다——AI 에이전트가 자연어 지시를 UI 요소의 시각 좌표에 매핑하는 능력인 GUI 그라운딩에 특화된 최초의 온폴리시 자기 증류(OPSD) 프레임워크입니다. 특권 시각 컨텍스트(바운딩 박스와 가우시안 소프트 마스크)와 엔트로피 가이드 증류를 사용합니다. 6개의 대표적인 GUI 그라운딩 벤치마크에서 GUI-SD는 GRPO 기반 강화학습 방법을 지속적으로 능가합니다.