Što je policy-switching strategija?

Tehnika u kojoj se tijekom trajectory rollouta izmjenjuje između učeničkog i ekspertnog modela. Cilj je uhvatiti scenarije oporavka od grešaka koje standardno imitation learning ne pokriva jer uči samo iz savršenih ekspertskih izvođenja.

Kako se OpenMobile uspoređuje s closed-source agentima?

Dostiže 64,7% uspjeha na AndroidWorldu, što je blizu zatvorenim sustavima koji imaju oko 70%. To je značajan skok iznad postojećih open-data rješenja i dokazuje da se kvalitetna sinteza podataka može zatvoriti jaz.

ArXiv OpenMobile: open-source mobilni agenti s trajektorijskom sintezom i policy-switchingom

Tim od 14 istraživača predvođen Kanzhi Chengom objavio je 16. travnja 2026. paper “OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis”. Fokus rada je na gradnji potpuno otvorenog mobilnog agent sustava koji može konkurirati zatvorenim rješenjima velikih tehnoloških kompanija.

Što je novo u pristupu?

Mobilni agenti temeljeni na vision-language modelima su aktivno istraživačko područje, ali vodeći sustavi — Appleovi, Googleovi i OpenAI-jevi prototipovi — svoje trening podatke drže privatne. To postavlja ozbiljan problem reproducibilnosti i inovacije izvan velikih laboratorija.

OpenMobile predlaže dvije ključne tehničke inovacije:

Task Synthesis Pipeline — sustav istražuje aplikacije i gradi okolinsku memoriju (environment memory) koju zatim koristi za generiranje raznovrsnih, konkretno utemeljenih task uputa. Umjesto da istraživači ručno pišu zadatke, agent ih sintetizira kroz stvarnu interakciju s ekosustavom.

Policy-Switching Strategy — tijekom trajectory rolloutu, sustav izmjenjuje između učeničkog i ekspertnog modela. To hvata scenarije oporavka od grešaka koji u standardnom imitation learningu nedostaju — ekspert rijetko griješi, pa učenik ne vidi kako izgleda oporavak od krive akcije.

Rezultati na AndroidWorldu

Paper demonstrira konkurentne rezultate na AndroidWorld benchmarku, standardnom testu za mobilne agente:

Fine-tuned Qwen2.5-VL: 51,7 posto uspjeha
Fine-tuned Qwen3-VL: 64,7 posto uspjeha

Ovi brojevi su značajno iznad postojećih open-data pristupa i približavaju se zatvorenim sustavima koji postižu oko 70 posto uspjeha. Jaz od nekoliko postotaka između open i closed sustava je dramatično manji nego što je prije godinu dana bio, što pokazuje da se kvalitetnom sintezom podataka može sustići proprietarna prednost.

Transparentnost i otvoreni pristup

Autori su proveli transparentnostne analize koje provjeravaju postoji li preklapanje između sintetičkih task uputa i test setova. Zaključuju da performanse dolaze iz široke pokrivenosti funkcionalnosti, a ne iz overfittinga prema benchmarku. To je važan detalj jer mnoge objave mobilnih agenata dižu brojeve upravo kroz tiho preklapanje s evaluacijskim setom.

Podaci i kod su javno objavljeni što omogućuje drugim istraživačima da reproduciraju i nadograde rezultate. Za industriju, to je korisna referencirana točka — pokazuje koliko otvorenih agenata može postići s dostupnim Qwen modelima, i osvjetljava kako strategija sinteze podataka može zatvoriti jaz prema proprietarnim sustavima.

ArXiv OpenMobile: open-source mobilni agenti s trajektorijskom sintezom i policy-switchingom

Što je novo u pristupu?

Rezultati na AndroidWorldu

Transparentnost i otvoreni pristup

Izvori

Povezane vijesti