ArXiv GUI-SD:GUI 그라운딩을 위한 최초의 온폴리시 자기 증류 프레임워크, 6개 벤치마크에서 GRPO 강화학습 능가
Yan Zhang, Daiqing Wu, Huawen Shen이 GUI-SD를 발표했습니다——AI 에이전트가 자연어 지시를 UI 요소의 시각 좌표에 매핑하는 능력인 GUI 그라운딩에 특화된 최초의 온폴리시 자기 증류(OPSD) 프레임워크입니다. 특권 시각 컨텍스트(바운딩 박스와 가우시안 소프트 마스크)와 엔트로피 가이드 증류를 사용합니다. 6개의 대표적인 GUI 그라운딩 벤치마크에서 GUI-SD는 GRPO 기반 강화학습 방법을 지속적으로 능가합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Yan Zhang, Daiqing Wu, Huawen Shen은 2026년 5월 1일 ArXiv에 논문 **「자기 자신에게서 클릭 위치를 배우다: GUI 그라운딩을 위한 온폴리시 자기 증류」**를 발표했습니다. 그들은 GUI-SD——GUI 그라운딩 작업을 위해 특별히 설계된 최초의 OPSD(온폴리시 자기 증류)프레임워크를 제안합니다.
GUI 그라운딩이란 무엇이며 에이전트의 기반인 이유는?
GUI 그라운딩은 자연어 지시(예: “저장 버튼을 클릭하라”)를 화면상의 대상 요소의 정확한 시각 좌표에 매핑하는 능력입니다. 이 능력 없이 자율 GUI 에이전트는 컴퓨터 애플리케이션을 진정으로 탐색할 수 없습니다——사용자에게 무엇을 클릭할지 제안할 수만 있습니다.
GUI 에이전트는 2026년에 성장하는 카테고리입니다(Anthropic Claude Computer Use, OpenAI Operator, Google Gemini Computer Use). 이 모든 에이전트는 그라운딩 정확도에 의해 제한됩니다: 에이전트가 「저장을 클릭하라」고 말하고 좌표가 20픽셀 빗나가면 잘못된 곳을 클릭하여 워크플로우가 실패합니다.
왜 강화학습이 아닌 자기 증류인가?
최근의 강화학습 방법(GRPO——그룹 상대 정책 최적화 등)은 강력한 결과를 달성하지만 저자들이 지적하는 두 가지 심각한 단점이 있습니다:
- 비용이 많이 드는 다수의 롤아웃 — 각 훈련 단계에서 답변 분포를 생성하기 위해 모델을 여러 번 실행해야 함
- 어려운 예제에서의 희소한 신호 — 모델이 지속적으로 실패하면 강화학습 그래디언트가 사실상 사라짐
**온폴리시 자기 증류(OPSD)**는 두 문제를 모두 해결합니다. 단일 롤아웃에서 밀도 높은 토큰 수준의 감독 신호를 제공합니다——출력의 각 토큰은 전체 궤적이 성공했는지 여부에 관계없이 명확한 훈련 목표를 갖습니다. 이는 훈련을 더 효율적이고 안정적으로 만듭니다.
GUI-SD는 GUI 그라운딩에 적응된 최초의 OPSD 프레임워크입니다. 이전 OPSD 연구들은 주로 NLP 작업이나 분류를 다뤘습니다.
GUI-SD를 그라운딩에 특화시키는 것은?
시스템은 두 가지 핵심 메커니즘을 사용합니다:
특권 시각 컨텍스트 — 교사 모델은 대상 바운딩 박스와 가우시안 소프트 마스크로 보강된 이미지를 받습니다. 소프트 마스크는 교사에게 목표 위치에 대한 강한 힌트를 주지만 정확한 좌표는 드러내지 않아, 교사는 여전히 픽셀화에 대해 「생각해야」 합니다. 이는 자기 증류의 고전적인 문제를 해결합니다——교사가 학생보다 너무 많은 정보를 가져서는 안 됩니다. 그렇지 않으면 교사가 아닌 「부정행위자」가 됩니다.
엔트로피 가이드 증류 — 토큰 가중치는 두 가지에 의존합니다: (a) 좌표 출력에서 자리수의 중요성(예: 좌표의 최상위 자리수가 최하위 자리수보다 중요); (b) 그 위치에서 교사의 신뢰도. 중요하고 신뢰할 수 있는 토큰이 더 큰 가중치를 받아, 가장 가치 있는 곳에 최적화를 집중시킵니다.
개선 효과는 얼마나 큰가?
6개의 대표적인 GUI 그라운딩 벤치마크에서의 실험은 GUI-SD가 GRPO 기반 방법과 단순 OPSD를 두 가지 차원에서 지속적으로 능가함을 보여줍니다:
- 그라운딩 정확도(최종적으로 에이전트의 성공을 결정하는 값)
- 훈련 효율(같은 결과에 필요한 계산량이 적음)
각 벤치마크의 구체적인 수치는 논문 본문에 제시되어 있지만, 요약은 명확합니다: 단일 롤아웃+엔트로피 가이드 가중치+교사의 특권 컨텍스트의 조합이 그라운딩 훈련의 지배적인 설계입니다.
논문은 ArXiv에서 ID 2605.00642로 이용 가능합니다.
자주 묻는 질문
- GUI 그라운딩이란 무엇이며 왜 에이전트에 필수적입니까?
- GUI 그라운딩은 자연어 지시(예: '저장을 클릭하라')를 화면상의 대상 요소의 정확한 시각 좌표에 매핑하는 능력입니다. 이 능력 없이 자율 GUI 에이전트는 API가 아닌 화면을 통해 컴퓨터 애플리케이션을 실제로 탐색할 수 없습니다.
- GUI에서 자기 증류가 강화학습보다 나은 이유는 무엇입니까?
- GRPO 같은 강화학습 방법은 비용이 많이 드는 다수의 롤아웃에 의존하고 어려운 예제에서 희소한 신호에 시달립니다. OPSD는 단일 롤아웃에서 밀도 높은 토큰 수준의 감독 신호를 제공하여 훈련을 더 효율적이고 안정적으로 만듭니다.
- 엔트로피 가이드 증류는 어떻게 작동합니까?
- 시스템은 숫자의 중요성과 교사의 신뢰도를 기반으로 토큰에 적응적으로 가중치를 부여하여 가장 영향력 있고 신뢰할 수 있는 위치에 최적화를 집중합니다. 중요하고 신뢰할 수 있는 토큰은 사소하지만 불확실한 것보다 더 큰 가중치를 받습니다.