🤖 24 AI
🟢 🤝 智能体 2026年4月17日星期五 · 2 分钟阅读

ArXiv OpenMobile:具有轨迹合成和策略切换的开源移动智能体

为什么重要

OpenMobile是基于视觉语言模型的移动智能体开发新型开源框架。微调Qwen2.5-VL后在AndroidWorld基准测试上达到51.7%的成功率,Qwen3-VL更达到64.7%——显著高于现有开放数据方法,接近达到近70%的闭源系统。作者将所有数据和代码公开发布。

由Kanzhi Cheng领导的14名研究人员团队于2026年4月16日发表了论文**“OpenMobile:通过任务和轨迹合成构建开放移动智能体”**。工作重点是构建一个完全开放的移动智能体系统,能够与大型科技公司的闭源解决方案竞争。

方法有何新意?

基于视觉语言模型的移动智能体是一个活跃的研究领域,但领先系统——苹果、谷歌和OpenAI的原型——将其训练数据保密。这给大型实验室之外的可重复性和创新带来了严重问题。

OpenMobile提出了两项关键技术创新:

任务合成管道 — 系统探索应用程序并构建环境记忆,然后用于生成多样化、具体的任务指令。智能体通过与生态系统的实际交互合成任务,而非研究人员手动编写。

策略切换策略 — 在轨迹展开过程中,系统在学生模型和专家模型之间交替。这捕获了标准模仿学习中缺失的错误恢复场景——专家很少出错,所以学生看不到如何从错误操作中恢复。

AndroidWorld上的结果

论文在AndroidWorld基准测试(移动智能体的标准测试)上展示了竞争性结果:

  • 微调Qwen2.5-VL: 51.7%成功率
  • 微调Qwen3-VL: 64.7%成功率

这些数字显著高于现有开放数据方法,接近达到约70%成功率的闭源系统。开源和闭源系统之间的几个百分点差距比一年前小得多,这表明高质量数据合成可以追上专有优势。

透明性与开放获取

作者进行了透明性分析,检验合成任务指令与测试集之间是否存在重叠。他们得出结论,性能来自对功能的广泛覆盖,而非对基准的过拟合。这是一个重要细节,因为许多移动智能体发布通过与评估集的静默重叠来提高数字。

数据和代码公开发布,使其他研究人员能够重现和改进结果。对于工业界,这是一个有用的参考点——展示了开放智能体能够通过可用的Qwen模型实现什么,并阐明了数据合成策略如何缩小与专有系统的差距。

🤖

本文由人工智能基于一手来源生成。