🟡 📦 오픈소스 게시일: · 1 분 읽기 ·

Allen Institute:오픈소스 MolmoMotion이 비디오에서 3D 움직임을 예측하고 로보틱스 분야에서 SOTA를 달성했습니다

편집 일러스트:로봇 조작을 위한 물체 3D 경로 예측

Allen Institute는 비디오와 『그릇을 돌려』 같은 자연어 지시로 물체의 3D 궤적을 예측하는 완전 오픈소스 모델 MolmoMotion을 공개했습니다. PointMotionBench에서 SOTA를 달성하여 평균 변위 0.109m로 이전 기록 0.134m를 경신했습니다. 로보틱스 pick-and-place 작업 성공률을 56%에서 76.3%로 20.3퍼센트포인트 향상시켰습니다. 3D 궤적과 동작 설명이 포함된 116만 개의 비디오로 구성된 MolmoMotion-1M 데이터셋으로 학습되었습니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

Allen Institute(AI2)는 MolmoMotion 을 발표했습니다. 비디오와 언어 지시를 기반으로 물체가 3D 공간에서 어떻게 움직이는지 예측하는 완전 오픈소스 모델입니다.

비디오와 언어에서 3D 궤적 예측

MolmoMotion은 비디오와 자연어 지시——예를 들어 「그릇을 돌려」——에서 물체의 3D 궤적을 예측합니다. 확정적인 경로를 위한 자기회귀(AR) 변형과 불확실성 상황을 위한 플로우 매칭(FM) 변형 두 가지를 제공합니다. 플로우 매칭은 단일 경로가 아닌 가능한 결과의 분포를 모델링하는 방법으로, 움직임이 명확하지 않을 때 유용합니다.

SOTA 결과와 로보틱스에서의 향상

PointMotionBench 벤치마크에서 MolmoMotion-AR은 평균 변위 0.109m 를 달성했습니다——이전 기록 보유자 ObjectForesight의 0.134m보다 우수합니다(더 작은 변위가 더 정확한 예측을 의미합니다). 로보틱스에서 모델은 pick-and-place 작업 성공률을 56%에서 76.3% 로 향상시켜 20.3퍼센트포인트를 개선했습니다. MolmoMotion-1M 데이터셋——3D 포인트 궤적과 동작 설명이 포함된 116만 개의 비디오로 736가지 움직임 유형을 포함——으로 학습되었습니다.

완전한 공개가 왜 중요합니까?

MolmoMotion은 완전히 공개 방식으로 발표되었습니다——모델 가중치, 학습 코드, 데이터셋 모두 포함됩니다. 로보틱스와 연구 분야에서 이는 팀이 라이선스 장벽 없이 결과를 재현하고 이를 기반으로 연구를 이어갈 수 있음을 의미하며, 고품질 3D 모션 데이터가 희귀한 이 분야에서 발전을 가속화합니다.

자주 묻는 질문

MolmoMotion은 무엇을 합니까?
비디오와 자연어 지시에서 물체의 3D 궤적을 예측합니다. 완전 오픈소스(가중치, 코드, 데이터셋)입니다.
MolmoMotion은 로보틱스를 얼마나 개선합니까?
pick-and-place 작업 성공률이 56%에서 76.3%로 향상되어 기준 대비 20.3퍼센트포인트 개선되었습니다.