Allen Institute:オープンソースのMolmoMotionが動画から3D動作を予測し、ロボティクスでSOTAを達成しました
Allen Instituteは、動画と「ボウルを回転させて」などの自然言語指示から物体の3D軌跡を予測する完全オープンソースモデルMolmoMotionを発表しました。PointMotionBenchでSOTAを達成し、平均変位は前記録の0.134mに対して0.109mです。ロボティクスのpick-and-placeタスク成功率を56%から76.3%へ20.3ポイント向上させました。3D軌跡と動作説明付き116万本の動画からなるMolmoMotion-1Mデータセットで訓練されています。
この記事はAIにより一次情報源から生成されました。
Allen Institute(AI2)は MolmoMotion を発表しました。動画と言語指示に基づいて物体が3D空間でどのように動くかを予測する完全オープンソースモデルです。
動画と言語からの3D軌跡予測
MolmoMotionは動画と自然言語指示——たとえば「ボウルを回転させて」——から物体の3D軌跡を予測します。確定的なパスに対応する 自己回帰(AR) 変種と、不確実性を伴う状況向けの フローマッチング(FM) 変種の2種類があります。フローマッチングは1つのパスではなく可能な結果の分布をモデル化する手法で、動きが一義的でない場合に有用です。
SOTAの結果とロボティクスでの向上
PointMotionBench ベンチマークで、MolmoMotion-ARは平均変位 0.109m を達成しました——前記録保持者ObjectForesightの0.134mを上回ります(より小さい変位がより精確な予測を意味します)。ロボティクスでは、モデルがpick-and-placeタスクの成功率を 56%から76.3% に向上させ、20.3ポイントの改善を達成しました。MolmoMotion-1M データセット——3Dポイント軌跡と動作説明付き116万本の動画、736種の動きタイプをカバー——で訓練されています。
完全な公開がなぜ重要なのですか?
MolmoMotionは完全オープンに公開されています——モデルの重み、訓練コード、データセットすべてが含まれます。ロボティクスと研究の分野において、これはチームがライセンスの障壁なく結果を再現しその上に構築できることを意味し、高品質な3Dモーションデータが希少なこの分野での進歩を加速させます。
よくある質問
- MolmoMotionは何をしますか?
- 動画と自然言語指示から物体の3D軌跡を予測します。完全オープンソース(重み、コード、データセット)です。
- MolmoMotionはロボティクスをどれだけ改善しますか?
- pick-and-placeタスクの成功率が56%から76.3%に向上し、ベースラインから20.3ポイントの改善です。