Allen Institute: Open-source MolmoMotion predviđa 3D kretanje iz videa i postavlja SOTA u robotici
Allen Institute objavio je MolmoMotion, potpuno open-source model koji predviđa 3D trajektorije objekata iz videa i prirodnojezičnih uputa poput 'okreni zdjelu'. Model postiže state-of-the-art na PointMotionBenchu s 0,109 m prosječnog pomaka naspram 0,134 m prethodnog rekorda, a podiže uspjeh pick-and-place zadataka u robotici s 56% na 76,3%, plus 20,3 postotna boda. Treniran je na MolmoMotion-1M skupu od 1,16 milijuna videa s 3D trajektorijama i opisima radnji.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Allen Institute (AI2) objavio je MolmoMotion, potpuno open-source model koji predviđa kako će se objekti kretati u 3D prostoru na temelju videa i jezičnih uputa.
Predviđanje 3D trajektorija iz videa i jezika
MolmoMotion iz videa i prirodnojezične instrukcije — primjerice “okreni zdjelu” — predviđa 3D trajektorije objekata. Dolazi u dvije varijante: autoregresivnoj (AR) za determinirane putanje i flow-matching (FM) za situacije s neizvjesnošću. Flow matching je metoda koja modelira raspodjelu mogućih ishoda umjesto jedne putanje, što je korisno kad kretanje nije jednoznačno.
State-of-the-art rezultati i dobitak u robotici
Na benchmarku PointMotionBench MolmoMotion-AR postiže prosječni pomak od 0,109 m naspram 0,134 m kod prethodnog rekordera ObjectForesight — bolji rezultat (manji pomak znači precizniju predikciju). U robotici model podiže uspjeh pick-and-place zadataka s 56% na 76,3%, dobitak od 20,3 postotna boda. Treniran je na MolmoMotion-1M skupu od 1,16 milijuna videa s 3D trajektorijama točaka i opisima radnji, koji pokriva 736 tipova pokreta.
Zašto je potpuna otvorenost važna?
MolmoMotion je objavljen potpuno otvoreno — težine modela, kod za treniranje i skupovi podataka. Za robotiku i istraživanje to znači da timovi mogu reproducirati rezultate i graditi na njima bez licencnih prepreka, što ubrzava napredak u području gdje su kvalitetni 3D podaci o kretanju rijetki.
Česta pitanja
- Što MolmoMotion radi?
- Predviđa 3D trajektorije objekata iz videa i prirodnojezičnih uputa; potpuno je open-source (težine, kod, skupovi podataka).
- Koliko poboljšava robotiku?
- Uspjeh pick-and-place zadataka raste s 56% na 76,3%, plus 20,3 postotna boda naspram baseline.
Povezane vijesti
vLLM: Semantic Router Fusion spaja panel modela uz suca koji sintetizira jedan odgovor
CNCF: Oracleova donacija od 3 milijuna dolara u OCI kreditima ubrzava Arm64 podršku u 12+ projekata
GitHub: Otvoreni Multilingual Repositories Dataset s 80 milijuna redaka i 40 milijuna repozitorija