정책 전환 전략이란 무엇입니까?

궤적 롤아웃 중에 학습자 모델과 전문가 모델 사이를 전환하는 기법입니다. 목표는 표준 모방 학습이 다루지 않는 오류 복구 시나리오를 포착하는 것입니다 — 전문가는 거의 실수하지 않으므로 학습자는 잘못된 행동에서의 복구가 어떻게 생겼는지 볼 수 없습니다.

OpenMobile은 클로즈드 소스 에이전트와 어떻게 비교됩니까?

AndroidWorld에서 64.7%의 성공률을 달성하여 약 70%의 클로즈드 시스템에 근접합니다. 이는 기존 오픈 데이터 솔루션을 크게 상회하며, 고품질 데이터 합성이 격차를 좁힐 수 있음을 증명합니다.

ArXiv OpenMobile: 궤적 합성과 정책 전환을 갖춘 오픈소스 모바일 에이전트

Kanzhi Cheng이 이끄는 14명의 연구자 팀이 2026년 4월 16일 논문 **“OpenMobile: 작업 및 궤적 합성으로 개방형 모바일 에이전트 구축”**을 발표했습니다. 연구의 초점은 대형 기술 회사의 클로즈드 소스 솔루션과 경쟁할 수 있는 완전히 개방된 모바일 에이전트 시스템을 구축하는 것입니다.

접근 방식에서 무엇이 새로운가

비전-언어 모델에 기반한 모바일 에이전트는 활발한 연구 분야이지만, 주요 시스템들 — Apple, Google, OpenAI의 프로토타입 — 은 훈련 데이터를 비공개로 유지합니다. 이는 대형 실험실 밖에서의 재현성과 혁신에 심각한 문제를 야기합니다.

OpenMobile은 두 가지 핵심 기술 혁신을 제안합니다:

작업 합성 파이프라인 — 시스템은 애플리케이션을 탐색하고 환경 메모리를 구축한 다음, 다양하고 구체적으로 근거 있는 작업 지시를 생성하는 데 사용합니다. 연구자들이 수동으로 작업을 작성하는 대신, 에이전트는 생태계와의 실제 상호작용을 통해 합성합니다.

정책 전환 전략 — 궤적 롤아웃 중에 시스템은 학습자 모델과 전문가 모델 사이를 전환합니다. 이는 표준 모방 학습에서 누락된 오류 복구 시나리오를 포착합니다 — 전문가는 거의 실수하지 않으므로 학습자는 잘못된 행동에서의 복구가 어떻게 생겼는지 볼 수 없습니다.

AndroidWorld에서의 결과

논문은 모바일 에이전트의 표준 테스트인 AndroidWorld 벤치마크에서 경쟁력 있는 결과를 보여줍니다:

파인튜닝된 Qwen2.5-VL: 51.7% 성공률
파인튜닝된 Qwen3-VL: 64.7% 성공률

이 수치는 기존 오픈 데이터 접근 방식을 크게 상회하며 약 70%의 성공률을 달성하는 클로즈드 시스템에 근접합니다. 오픈과 클로즈드 시스템 사이의 몇 퍼센트포인트 격차는 1년 전보다 훨씬 작아졌으며, 이는 고품질 데이터 합성으로 독점적 우위를 따라잡을 수 있음을 보여줍니다.

투명성과 공개 접근

저자들은 합성 작업 지시와 테스트 세트 사이의 중복이 있는지 확인하는 투명성 분석을 수행했습니다. 그들은 성능이 벤치마크 과적합이 아닌 광범위한 기능 적용 범위에서 나온다고 결론지었습니다. 이것은 중요한 세부 사항입니다 — 많은 모바일 에이전트 발표들이 평가 세트와의 조용한 중복을 통해 수치를 높이기 때문입니다.

데이터와 코드는 공개되어 다른 연구자들이 결과를 재현하고 개선할 수 있게 합니다. 업계에게 이것은 유용한 참고 지점입니다 — 사용 가능한 Qwen 모델로 개방형 에이전트가 무엇을 달성할 수 있는지 보여주며, 데이터 합성 전략이 독점 시스템과의 격차를 어떻게 좁힐 수 있는지 조명합니다.

ArXiv OpenMobile: 궤적 합성과 정책 전환을 갖춘 오픈소스 모바일 에이전트

접근 방식에서 무엇이 새로운가

AndroidWorld에서의 결과

투명성과 공개 접근

출처

관련 뉴스