Allen Institute: Open-Source MolmoMotion sagt 3D-Bewegung aus Videos vorher und setzt SOTA in der Robotik
Das Allen Institute veröffentlichte MolmoMotion, ein vollständig quelloffenes Modell, das 3D-Trajektorien von Objekten aus Videos und natürlichsprachlichen Anweisungen wie „drehe die Schüssel” vorhersagt. Das Modell erreicht den State-of-the-Art auf PointMotionBench mit 0,109 m mittlerer Abweichung gegenüber 0,134 m des vorherigen Rekords und steigert den Erfolg von Pick-and-Place-Aufgaben in der Robotik von 56 % auf 76,3 % — ein Plus von 20,3 Prozentpunkten. Es wurde auf dem MolmoMotion-1M-Datensatz mit 1,16 Millionen Videos mit 3D-Trajektorien und Aktionsbeschreibungen trainiert.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Das Allen Institute (AI2) veröffentlichte MolmoMotion, ein vollständig quelloffenes Modell, das vorhersagt, wie sich Objekte im 3D-Raum auf Basis von Videos und Sprachanweisungen bewegen werden.
Vorhersage von 3D-Trajektorien aus Video und Sprache
MolmoMotion sagt aus einem Video und einer natürlichsprachlichen Anweisung — zum Beispiel „drehe die Schüssel” — 3D-Trajektorien von Objekten vorher. Es gibt zwei Varianten: autoregressive (AR) für deterministische Pfade und Flow-Matching (FM) für Situationen mit Ungewissheit. Flow Matching ist eine Methode, die die Verteilung möglicher Ergebnisse modelliert, anstatt eine einzelne Trajektorie, was nützlich ist, wenn die Bewegung mehrdeutig ist.
State-of-the-Art-Ergebnisse und Gewinne in der Robotik
Auf dem Benchmark PointMotionBench erreicht MolmoMotion-AR eine mittlere Abweichung von 0,109 m gegenüber 0,134 m des bisherigen Rekordhalters ObjectForesight — ein besseres Ergebnis, da eine kleinere Abweichung eine präzisere Vorhersage bedeutet. In der Robotik steigert das Modell den Erfolg bei Pick-and-Place-Aufgaben von 56 % auf 76,3 %, ein Gewinn von 20,3 Prozentpunkten. Es wurde auf dem MolmoMotion-1M-Datensatz mit 1,16 Millionen Videos mit 3D-Punkttrajektorien und Aktionsbeschreibungen trainiert, der 736 Bewegungstypen abdeckt.
Warum ist vollständige Offenheit wichtig?
MolmoMotion wurde vollständig offen veröffentlicht — Modellgewichte, Trainingscode und Datensätze. Für Robotik und Forschung bedeutet das, dass Teams Ergebnisse reproduzieren und darauf aufbauen können, ohne Lizenzschranken, was den Fortschritt in einem Bereich beschleunigt, in dem qualitativ hochwertige 3D-Bewegungsdaten rar sind.
Häufig gestellte Fragen
- Was macht MolmoMotion?
- Es sagt 3D-Trajektorien von Objekten aus Videos und natürlichsprachlichen Anweisungen vorher; vollständig quelloffen (Gewichte, Code, Datensätze).
- Wie stark verbessert es die Robotik?
- Der Erfolg bei Pick-and-Place-Aufgaben steigt von 56 % auf 76,3 %, ein Gewinn von 20,3 Prozentpunkten gegenüber der Basislinie.
Quellen
Verwandte Nachrichten
vLLM: Semantic Router Fusion kombiniert ein Modell-Panel mit einem Richter, der eine einzige Antwort synthetisiert
CNCF: Oracles Spende von 3 Millionen Dollar in OCI-Credits beschleunigt Arm64-Unterstützung in 12+ Projekten
GitHub: Offener Multilingual Repositories Dataset mit 80 Millionen Zeilen und 40 Millionen Repositories