MolmoAct 2：开源机器人模型超越 GPT-5（2026年5月）

MolmoAct 2 是 Allen Institute for AI 于 5 月 5 日发布的开源机器人基础模型。该模型在具身推理基准测试中达到 63.8/100，超越 GPT-5 和 Gemini 2.5 Pro，推理速度提升 37 倍，是首个内置双臂协调能力的基础模型。

Allen Institute for AI（AI2）于 2026 年 5 月 5 日发布了 MolmoAct 2，这是首个在具身推理基准测试中超越 Physical Intelligence 等封闭系统以及 GPT-5 和 Gemini 2.5 Pro 等前沿模型的开源机器人基础模型。

机器人基础模型是在视觉和动作数据组合上训练的大型基础模型，使机器人能够从自然语言执行多样化的物理任务，无需为每个新场景进行专门训练。

MolmoAct 2 的三项关键改进是什么？

第一项是原始性能：该模型在具身推理基准测试中达到 63.8/100，超越 GPT-5 和 Gemini 2.5 Pro。第二项是大幅提速——通过优化视觉模型与动作专家之间的 KV-cache 桥接，推理速度提升 37 倍，从每个动作 6.7 秒降至 180 毫秒。第三项是内置双臂能力——无需针对特定任务进行微调即可协调双手操作，使 MolmoAct 2 成为此类首个基础模型。

该模型基于 Molmo 2-ER 底座，在约 300 万个额外的具身推理样本上进行训练。

实际基准测试结果如何？

在机器人学习标准学术基准 LIBERO 测试上，MolmoAct 2 达到 97.2% 的成功率。在使用 Franka 机械臂的真实任务中，成功率为 87.1%，而在新的 MolmoBot 家庭基准（家庭任务集）上达到 20.6%——是第二名模型的两倍。

LIBERO 与 MolmoBot 之间的差距表明，真实凌乱的家庭环境仍然极具挑战性：即使是能解决 97% 学术任务的模型，也只能在约五分之一的真实家庭场景中成功。

AI2 随模型发布了哪些内容？

除模型权重外，AI2 还发布了包含超过 720 小时双臂演示的 YAM 数据集，这是原始 MolmoAct 数据集的 30 倍。此外还包括完整的训练代码和其他实验室可以复现的参考硬件配置。

所有工件——权重、数据集、代码和硬件规格——均已公开发布。这使 MolmoAct 2 成为封闭机器人基础模型的首个严肃开放替代方案，为研究人员、大学和小型公司提供了无许可限制的构建基础。

常见问题

什么是机器人基础模型？

机器人基础模型是在视觉和动作数据上训练的大型基础模型，使机器人能够根据自然语言指令执行各种物理任务，无需为每个新场景进行单独训练。

机器人领域的双臂能力是什么意思？

双臂能力意味着机器人可以在单个任务中协调两只手臂，例如一只手握住容器，另一只手倒入内容物。MolmoAct 2 是首个无需针对特定任务训练即可实现此功能的基础模型。

YAM 数据集是什么？

YAM 数据集是 AI2 随模型发布的全新公开数据集，包含超过 720 小时的双臂机器人演示数据，是原始 MolmoAct 数据集演示数量的 30 倍。

Allen Institute: MolmoAct 2 是首个开源机器人基础模型，超越 GPT-5 和 Gemini 2.5 Pro

MolmoAct 2 的三项关键改进是什么？

实际基准测试结果如何？

AI2 随模型发布了哪些内容？

常见问题

来源

相关新闻