🟡 📦 Open Source Objavljeno: · 2 min čitanja ·

Allen Institute: Open-source MolmoMotion predviđa 3D kretanje iz videa i postavlja SOTA u robotici

Editorial ilustracija: predviđanje 3D putanja objekata za robotsko manipuliranje

Allen Institute objavio je MolmoMotion, potpuno open-source model koji predviđa 3D trajektorije objekata iz videa i prirodnojezičnih uputa poput 'okreni zdjelu'. Model postiže state-of-the-art na PointMotionBenchu s 0,109 m prosječnog pomaka naspram 0,134 m prethodnog rekorda, a podiže uspjeh pick-and-place zadataka u robotici s 56% na 76,3%, plus 20,3 postotna boda. Treniran je na MolmoMotion-1M skupu od 1,16 milijuna videa s 3D trajektorijama i opisima radnji.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Allen Institute (AI2) objavio je MolmoMotion, potpuno open-source model koji predviđa kako će se objekti kretati u 3D prostoru na temelju videa i jezičnih uputa.

Predviđanje 3D trajektorija iz videa i jezika

MolmoMotion iz videa i prirodnojezične instrukcije — primjerice “okreni zdjelu” — predviđa 3D trajektorije objekata. Dolazi u dvije varijante: autoregresivnoj (AR) za determinirane putanje i flow-matching (FM) za situacije s neizvjesnošću. Flow matching je metoda koja modelira raspodjelu mogućih ishoda umjesto jedne putanje, što je korisno kad kretanje nije jednoznačno.

State-of-the-art rezultati i dobitak u robotici

Na benchmarku PointMotionBench MolmoMotion-AR postiže prosječni pomak od 0,109 m naspram 0,134 m kod prethodnog rekordera ObjectForesight — bolji rezultat (manji pomak znači precizniju predikciju). U robotici model podiže uspjeh pick-and-place zadataka s 56% na 76,3%, dobitak od 20,3 postotna boda. Treniran je na MolmoMotion-1M skupu od 1,16 milijuna videa s 3D trajektorijama točaka i opisima radnji, koji pokriva 736 tipova pokreta.

Zašto je potpuna otvorenost važna?

MolmoMotion je objavljen potpuno otvoreno — težine modela, kod za treniranje i skupovi podataka. Za robotiku i istraživanje to znači da timovi mogu reproducirati rezultate i graditi na njima bez licencnih prepreka, što ubrzava napredak u području gdje su kvalitetni 3D podaci o kretanju rijetki.

Česta pitanja

Što MolmoMotion radi?
Predviđa 3D trajektorije objekata iz videa i prirodnojezičnih uputa; potpuno je open-source (težine, kod, skupovi podataka).
Koliko poboljšava robotiku?
Uspjeh pick-and-place zadataka raste s 56% na 76,3%, plus 20,3 postotna boda naspram baseline.