ポリシースイッチング戦略とは何ですか？

軌跡ロールアウト中に学習者モデルと専門家モデルを切り替えるテクニックです。目標は、標準的な模倣学習がカバーしない誤りからの回復シナリオを捕捉することです——専門家はほとんど誤りを犯さないため、学習者は誤ったアクションからの回復がどのようなものかを見ることができません。

OpenMobileはクローズドソースエージェントとどのように比較されますか？

AndroidWorldで64.7%の成功率を達成しており、約70%のクローズドシステムに近いです。これは既存のオープンデータソリューションを大きく上回り、高品質なデータ合成がギャップを埋められることを証明しています。

ArXiv OpenMobile：軌跡合成とポリシースイッチングを備えたオープンソースモバイルエージェント

Kanzhi Chengが率いる14人の研究者チームが2026年4月16日に論文**「OpenMobile：タスクと軌跡合成によるオープンモバイルエージェントの構築」**を発表しました。研究の焦点は、大手テクノロジー企業のクローズドソリューションと競合できる完全にオープンなモバイルエージェントシステムの構築です。

アプローチの新しさ

ビジョン言語モデルに基づくモバイルエージェントは活発な研究分野ですが、主要なシステム——Apple、Google、OpenAIのプロトタイプ——はトレーニングデータをプライベートに保持しています。これは大きなラボの外での再現性と革新に深刻な問題をもたらします。

OpenMobileは二つの主要な技術革新を提案します：

タスク合成パイプライン — システムはアプリケーションを探索し、環境メモリを構築し、多様で具体的に根ざしたタスク指示を生成するために使用します。研究者がタスクを手動で書くのではなく、エージェントはエコシステムとの実際の相互作用を通じてそれらを合成します。

ポリシースイッチング戦略 — 軌跡ロールアウト中に、システムは学習者と専門家モデルを切り替えます。これは標準的な模倣学習で欠落している誤りからの回復シナリオを捕捉します——専門家はほとんど誤りを犯さないため、学習者は誤ったアクションからの回復がどのようなものかを見ることができません。

AndroidWorldでの結果

論文はモバイルエージェントの標準テストであるAndroidWorldベンチマークで競争力のある結果を示しています：

ファインチューニングされたQwen2.5-VL： 51.7%成功率
ファインチューニングされたQwen3-VL： 64.7%成功率

これらの数字は既存のオープンデータアプローチを大きく上回り、約70%の成功率を達成するクローズドシステムに近づいています。オープンとクローズドシステムの数パーセントの差は一年前よりも劇的に小さくなっており、高品質なデータ合成で独自の優位性に追いつけることを示しています。

透明性とオープンアクセス

著者たちは合成タスク指示とテストセット間のオーバーラップが存在するかどうかを確認する透明性分析を実施しました。彼らはパフォーマンスは幅広い機能カバレッジから来ており、ベンチマークへの過適合からではないと結論付けています。これは重要な詳細です——多くのモバイルエージェントの発表は評価セットとのサイレントなオーバーラップによって数字を上げているからです。

データとコードは公開されており、他の研究者が結果を再現し改善できます。産業界にとって、これは有用な参照点です——利用可能なQwenモデルでオープンエージェントが何を達成できるかを示し、データ合成戦略がプロプライエタリシステムへのギャップをどのように埋めることができるかを明らかにします。

ArXiv OpenMobile：軌跡合成とポリシースイッチングを備えたオープンソースモバイルエージェント

アプローチの新しさ

AndroidWorldでの結果

透明性とオープンアクセス

出典

関連ニュース