ArXiv OpenMobile: open-source mobilni agenti s trajektorijskom sintezom i policy-switchingom
Zašto je bitno
OpenMobile je novi open-source framework za razvoj mobilnih agenata temeljenih na vision-language modelima. Nakon fine-tuninga Qwen2.5-VL postiže 51,7 posto uspjeha, a Qwen3-VL čak 64,7 posto na AndroidWorld benchmarku — što je značajno iznad postojećih open-data pristupa i blizu zatvorenim sustavima koji dostižu skoro 70 posto. Autori puštaju sve podatke i kod javno.
Tim od 14 istraživača predvođen Kanzhi Chengom objavio je 16. travnja 2026. paper “OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis”. Fokus rada je na gradnji potpuno otvorenog mobilnog agent sustava koji može konkurirati zatvorenim rješenjima velikih tehnoloških kompanija.
Što je novo u pristupu?
Mobilni agenti temeljeni na vision-language modelima su aktivno istraživačko područje, ali vodeći sustavi — Appleovi, Googleovi i OpenAI-jevi prototipovi — svoje trening podatke drže privatne. To postavlja ozbiljan problem reproducibilnosti i inovacije izvan velikih laboratorija.
OpenMobile predlaže dvije ključne tehničke inovacije:
Task Synthesis Pipeline — sustav istražuje aplikacije i gradi okolinsku memoriju (environment memory) koju zatim koristi za generiranje raznovrsnih, konkretno utemeljenih task uputa. Umjesto da istraživači ručno pišu zadatke, agent ih sintetizira kroz stvarnu interakciju s ekosustavom.
Policy-Switching Strategy — tijekom trajectory rolloutu, sustav izmjenjuje između učeničkog i ekspertnog modela. To hvata scenarije oporavka od grešaka koji u standardnom imitation learningu nedostaju — ekspert rijetko griješi, pa učenik ne vidi kako izgleda oporavak od krive akcije.
Rezultati na AndroidWorldu
Paper demonstrira konkurentne rezultate na AndroidWorld benchmarku, standardnom testu za mobilne agente:
- Fine-tuned Qwen2.5-VL: 51,7 posto uspjeha
- Fine-tuned Qwen3-VL: 64,7 posto uspjeha
Ovi brojevi su značajno iznad postojećih open-data pristupa i približavaju se zatvorenim sustavima koji postižu oko 70 posto uspjeha. Jaz od nekoliko postotaka između open i closed sustava je dramatično manji nego što je prije godinu dana bio, što pokazuje da se kvalitetnom sintezom podataka može sustići proprietarna prednost.
Transparentnost i otvoreni pristup
Autori su proveli transparentnostne analize koje provjeravaju postoji li preklapanje između sintetičkih task uputa i test setova. Zaključuju da performanse dolaze iz široke pokrivenosti funkcionalnosti, a ne iz overfittinga prema benchmarku. To je važan detalj jer mnoge objave mobilnih agenata dižu brojeve upravo kroz tiho preklapanje s evaluacijskim setom.
Podaci i kod su javno objavljeni što omogućuje drugim istraživačima da reproduciraju i nadograde rezultate. Za industriju, to je korisna referencirana točka — pokazuje koliko otvorenih agenata može postići s dostupnim Qwen modelima, i osvjetljava kako strategija sinteze podataka može zatvoriti jaz prema proprietarnim sustavima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
arXiv:2604.24697: SciCrafter pokazuje da GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 plateauiraju na ~26% u Minecraft discovery-to-application testu
AWS objavio kako graditi Strands Agente sa SageMaker AI modelima i MLflow observability: SageMakerAIModel provider, autolog tracing i A/B testiranje varijanti
OpenAI objavio Symphony: open-source specifikaciju za orkestraciju Codex agenata koja issue trackere pretvara u 'always-on' inženjerske sustave