🟡 📦 Open Source Veröffentlicht: · 2 Min. Lesezeit ·

Allen Institute: Open-Source MolmoMotion sagt 3D-Bewegung aus Videos vorher und setzt SOTA in der Robotik

Redaktionelle Illustration: Vorhersage von 3D-Objekttrajektorien für robotische Manipulation

Das Allen Institute veröffentlichte MolmoMotion, ein vollständig quelloffenes Modell, das 3D-Trajektorien von Objekten aus Videos und natürlichsprachlichen Anweisungen wie „drehe die Schüssel” vorhersagt. Das Modell erreicht den State-of-the-Art auf PointMotionBench mit 0,109 m mittlerer Abweichung gegenüber 0,134 m des vorherigen Rekords und steigert den Erfolg von Pick-and-Place-Aufgaben in der Robotik von 56 % auf 76,3 % — ein Plus von 20,3 Prozentpunkten. Es wurde auf dem MolmoMotion-1M-Datensatz mit 1,16 Millionen Videos mit 3D-Trajektorien und Aktionsbeschreibungen trainiert.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Das Allen Institute (AI2) veröffentlichte MolmoMotion, ein vollständig quelloffenes Modell, das vorhersagt, wie sich Objekte im 3D-Raum auf Basis von Videos und Sprachanweisungen bewegen werden.

Vorhersage von 3D-Trajektorien aus Video und Sprache

MolmoMotion sagt aus einem Video und einer natürlichsprachlichen Anweisung — zum Beispiel „drehe die Schüssel” — 3D-Trajektorien von Objekten vorher. Es gibt zwei Varianten: autoregressive (AR) für deterministische Pfade und Flow-Matching (FM) für Situationen mit Ungewissheit. Flow Matching ist eine Methode, die die Verteilung möglicher Ergebnisse modelliert, anstatt eine einzelne Trajektorie, was nützlich ist, wenn die Bewegung mehrdeutig ist.

State-of-the-Art-Ergebnisse und Gewinne in der Robotik

Auf dem Benchmark PointMotionBench erreicht MolmoMotion-AR eine mittlere Abweichung von 0,109 m gegenüber 0,134 m des bisherigen Rekordhalters ObjectForesight — ein besseres Ergebnis, da eine kleinere Abweichung eine präzisere Vorhersage bedeutet. In der Robotik steigert das Modell den Erfolg bei Pick-and-Place-Aufgaben von 56 % auf 76,3 %, ein Gewinn von 20,3 Prozentpunkten. Es wurde auf dem MolmoMotion-1M-Datensatz mit 1,16 Millionen Videos mit 3D-Punkttrajektorien und Aktionsbeschreibungen trainiert, der 736 Bewegungstypen abdeckt.

Warum ist vollständige Offenheit wichtig?

MolmoMotion wurde vollständig offen veröffentlicht — Modellgewichte, Trainingscode und Datensätze. Für Robotik und Forschung bedeutet das, dass Teams Ergebnisse reproduzieren und darauf aufbauen können, ohne Lizenzschranken, was den Fortschritt in einem Bereich beschleunigt, in dem qualitativ hochwertige 3D-Bewegungsdaten rar sind.

Häufig gestellte Fragen

Was macht MolmoMotion?
Es sagt 3D-Trajektorien von Objekten aus Videos und natürlichsprachlichen Anweisungen vorher; vollständig quelloffen (Gewichte, Code, Datensätze).
Wie stark verbessert es die Robotik?
Der Erfolg bei Pick-and-Place-Aufgaben steigt von 56 % auf 76,3 %, ein Gewinn von 20,3 Prozentpunkten gegenüber der Basislinie.