🔴 📦 开源 2026年5月6日星期三 · 2 分钟阅读 ·

Allen Institute: MolmoAct 2 是首个开源机器人基础模型,超越 GPT-5 和 Gemini 2.5 Pro

编辑插图:实验室中装有 Franka 机械臂的双手机器人正打开一个箱子,象征开源 MolmoAct 2 基础模型

MolmoAct 2 是 Allen Institute for AI 于 5 月 5 日发布的开源机器人基础模型。该模型在具身推理基准测试中达到 63.8/100,超越 GPT-5 和 Gemini 2.5 Pro,推理速度提升 37 倍,是首个内置双臂协调能力的基础模型。

🤖

本文由人工智能基于一手来源生成。

Allen Institute for AI(AI2)于 2026 年 5 月 5 日发布了 MolmoAct 2,这是首个在具身推理基准测试中超越 Physical Intelligence 等封闭系统以及 GPT-5 和 Gemini 2.5 Pro 等前沿模型的开源机器人基础模型。

机器人基础模型是在视觉和动作数据组合上训练的大型基础模型,使机器人能够从自然语言执行多样化的物理任务,无需为每个新场景进行专门训练。

MolmoAct 2 的三项关键改进是什么?

第一项是原始性能:该模型在具身推理基准测试中达到 63.8/100,超越 GPT-5 和 Gemini 2.5 Pro。第二项是大幅提速——通过优化视觉模型与动作专家之间的 KV-cache 桥接,推理速度提升 37 倍,从每个动作 6.7 秒降至 180 毫秒。第三项是内置双臂能力——无需针对特定任务进行微调即可协调双手操作,使 MolmoAct 2 成为此类首个基础模型。

该模型基于 Molmo 2-ER 底座,在约 300 万个额外的具身推理样本上进行训练。

实际基准测试结果如何?

在机器人学习标准学术基准 LIBERO 测试上,MolmoAct 2 达到 97.2% 的成功率。在使用 Franka 机械臂的真实任务中,成功率为 87.1%,而在新的 MolmoBot 家庭基准(家庭任务集)上达到 20.6%——是第二名模型的两倍。

LIBERO 与 MolmoBot 之间的差距表明,真实凌乱的家庭环境仍然极具挑战性:即使是能解决 97% 学术任务的模型,也只能在约五分之一的真实家庭场景中成功。

AI2 随模型发布了哪些内容?

除模型权重外,AI2 还发布了包含超过 720 小时双臂演示的 YAM 数据集,这是原始 MolmoAct 数据集的 30 倍。此外还包括完整的训练代码和其他实验室可以复现的参考硬件配置。

所有工件——权重、数据集、代码和硬件规格——均已公开发布。这使 MolmoAct 2 成为封闭机器人基础模型的首个严肃开放替代方案,为研究人员、大学和小型公司提供了无许可限制的构建基础。

常见问题

什么是机器人基础模型?
机器人基础模型是在视觉和动作数据上训练的大型基础模型,使机器人能够根据自然语言指令执行各种物理任务,无需为每个新场景进行单独训练。
机器人领域的双臂能力是什么意思?
双臂能力意味着机器人可以在单个任务中协调两只手臂,例如一只手握住容器,另一只手倒入内容物。MolmoAct 2 是首个无需针对特定任务训练即可实现此功能的基础模型。
YAM 数据集是什么?
YAM 数据集是 AI2 随模型发布的全新公开数据集,包含超过 720 小时的双臂机器人演示数据,是原始 MolmoAct 数据集演示数量的 30 倍。