🟡 📦 开源 发布于: · 1 分钟阅读 ·

Allen Institute:开源MolmoMotion从视频中预测3D运动,在机器人领域达到SOTA

编辑插图:用于机器人操作的物体3D路径预测

Allen Institute发布了MolmoMotion,一款完全开源的模型,可根据视频和「旋转碗」等自然语言指令预测物体的3D轨迹。该模型在PointMotionBench上达到最优性能,平均位移0.109米(前记录为0.134米),并将机器人抓放任务成功率从56%提升至76.3%,提升20.3个百分点。模型在包含116万段视频及3D轨迹和动作描述的MolmoMotion-1M数据集上训练。

🤖

本文由人工智能基于一手来源生成。

Allen Institute(AI2)发布了 MolmoMotion,一款完全开源的模型,可根据视频和语言指令预测物体在3D空间中的运动方式。

从视频和语言中预测3D轨迹

MolmoMotion根据视频和自然语言指令——例如「旋转碗」——预测物体的3D轨迹。提供两种变体:用于确定性路径的 自回归(AR) 变体和用于处理不确定性的 流匹配(FM) 变体。流匹配是一种对可能结果的分布进行建模而非单一路径的方法,在运动不明确时非常有用。

最优性能结果与机器人技术收益

PointMotionBench 基准上,MolmoMotion-AR的平均位移为 0.109米,优于前记录保持者ObjectForesight的0.134米——更好的结果(更小的位移意味着更精确的预测)。在机器人技术方面,模型将抓放任务成功率从 56%提升至76.3%,提升20.3个百分点。模型在 MolmoMotion-1M 数据集上训练,该数据集包含116万段视频,涵盖3D点轨迹和动作描述,覆盖736种运动类型。

为什么完全开放性如此重要?

MolmoMotion以完全开放的方式发布——模型权重、训练代码和数据集均公开。对于机器人和研究领域,这意味着团队无需许可障碍即可复现结果并在此基础上继续研究,这在高质量3D运动数据稀缺的领域加速了进步。

常见问题

MolmoMotion能做什么?
从视频和自然语言指令中预测物体的3D轨迹;完全开源(权重、代码、数据集)。
MolmoMotion对机器人技术的改进有多大?
抓放任务成功率从56%提升至76.3%,相较基准线提升20.3个百分点。