MolmoMotion能做什么？

从视频和自然语言指令中预测物体的3D轨迹；完全开源（权重、代码、数据集）。

MolmoMotion对机器人技术的改进有多大？

抓放任务成功率从56%提升至76.3%，相较基准线提升20.3个百分点。

MolmoMotion：开源3D运动，机器人SOTA

Allen Institute发布了MolmoMotion，一款完全开源的模型，可根据视频和「旋转碗」等自然语言指令预测物体的3D轨迹。该模型在PointMotionBench上达到最优性能，平均位移0.109米（前记录为0.134米），并将机器人抓放任务成功率从56%提升至76.3%，提升20.3个百分点。模型在包含116万段视频及3D轨迹和动作描述的MolmoMotion-1M数据集上训练。

Allen Institute（AI2）发布了 MolmoMotion，一款完全开源的模型，可根据视频和语言指令预测物体在3D空间中的运动方式。

从视频和语言中预测3D轨迹

MolmoMotion根据视频和自然语言指令——例如「旋转碗」——预测物体的3D轨迹。提供两种变体：用于确定性路径的 自回归（AR） 变体和用于处理不确定性的 流匹配（FM） 变体。流匹配是一种对可能结果的分布进行建模而非单一路径的方法，在运动不明确时非常有用。

最优性能结果与机器人技术收益

在 PointMotionBench 基准上，MolmoMotion-AR的平均位移为 0.109米，优于前记录保持者ObjectForesight的0.134米——更好的结果（更小的位移意味着更精确的预测）。在机器人技术方面，模型将抓放任务成功率从 56%提升至76.3%，提升20.3个百分点。模型在 MolmoMotion-1M 数据集上训练，该数据集包含116万段视频，涵盖3D点轨迹和动作描述，覆盖736种运动类型。

为什么完全开放性如此重要？

MolmoMotion以完全开放的方式发布——模型权重、训练代码和数据集均公开。对于机器人和研究领域，这意味着团队无需许可障碍即可复现结果并在此基础上继续研究，这在高质量3D运动数据稀缺的领域加速了进步。

Allen Institute：开源MolmoMotion从视频中预测3D运动，在机器人领域达到SOTA

从视频和语言中预测3D轨迹

最优性能结果与机器人技术收益

为什么完全开放性如此重要？

常见问题

来源

相关新闻