Allen Institute:开源MolmoMotion从视频中预测3D运动,在机器人领域达到SOTA
Allen Institute发布了MolmoMotion,一款完全开源的模型,可根据视频和「旋转碗」等自然语言指令预测物体的3D轨迹。该模型在PointMotionBench上达到最优性能,平均位移0.109米(前记录为0.134米),并将机器人抓放任务成功率从56%提升至76.3%,提升20.3个百分点。模型在包含116万段视频及3D轨迹和动作描述的MolmoMotion-1M数据集上训练。
本文由人工智能基于一手来源生成。
Allen Institute(AI2)发布了 MolmoMotion,一款完全开源的模型,可根据视频和语言指令预测物体在3D空间中的运动方式。
从视频和语言中预测3D轨迹
MolmoMotion根据视频和自然语言指令——例如「旋转碗」——预测物体的3D轨迹。提供两种变体:用于确定性路径的 自回归(AR) 变体和用于处理不确定性的 流匹配(FM) 变体。流匹配是一种对可能结果的分布进行建模而非单一路径的方法,在运动不明确时非常有用。
最优性能结果与机器人技术收益
在 PointMotionBench 基准上,MolmoMotion-AR的平均位移为 0.109米,优于前记录保持者ObjectForesight的0.134米——更好的结果(更小的位移意味着更精确的预测)。在机器人技术方面,模型将抓放任务成功率从 56%提升至76.3%,提升20.3个百分点。模型在 MolmoMotion-1M 数据集上训练,该数据集包含116万段视频,涵盖3D点轨迹和动作描述,覆盖736种运动类型。
为什么完全开放性如此重要?
MolmoMotion以完全开放的方式发布——模型权重、训练代码和数据集均公开。对于机器人和研究领域,这意味着团队无需许可障碍即可复现结果并在此基础上继续研究,这在高质量3D运动数据稀缺的领域加速了进步。
常见问题
- MolmoMotion能做什么?
- 从视频和自然语言指令中预测物体的3D轨迹;完全开源(权重、代码、数据集)。
- MolmoMotion对机器人技术的改进有多大?
- 抓放任务成功率从56%提升至76.3%,相较基准线提升20.3个百分点。