MolmoAct 2: Open-Source-Robotik schlägt GPT-5

MolmoAct 2 ist ein Open-Source-Robotik-Foundation-Modell, das Allen Institute for AI am 5. Mai veröffentlicht hat. Das Modell erzielt 63,8/100 auf Embodied-Reasoning-Benchmarks, übertrifft GPT-5 und Gemini 2.5 Pro, beschleunigt die Inferenz um den Faktor 37 und ist das erste Basismodell mit eingebetteten bimanuellen Fähigkeiten.

Allen Institute for AI (AI2) hat am 5. Mai 2026 MolmoAct 2 veröffentlicht — das erste Open-Source-Robotik-Foundation-Modell, das geschlossene Systeme wie Physical Intelligence sowie die Frontier-Modelle GPT-5 und Gemini 2.5 Pro auf Embodied-Reasoning-Benchmarks übertrifft.

Ein Robotik-Foundation-Modell ist ein großes Basismodell, das auf einer Kombination aus visuellen und Aktionsdaten trainiert wurde und einen Roboter in die Lage versetzt, vielfältige physische Aufgaben aus natürlicher Sprache heraus auszuführen — ohne aufgabenspezifisches Training.

Welche drei Schlüsseländerungen bringt MolmoAct 2?

Die erste Änderung ist die rohe Leistung: Das Modell erzielt 63,8/100 auf Embodied-Reasoning-Benchmarks und liegt damit vor GPT-5 und Gemini 2.5 Pro. Die zweite ist eine drastische Beschleunigung — durch Optimierung des KV-Cache-Bridges zwischen Vision-Modell und Action-Expert wurde die Inferenz um den Faktor 37 beschleunigt, von 6,7 Sekunden auf 180 Millisekunden pro Aktion. Die dritte ist die eingebaute Bimanualität — koordinierte Zwei-Arm-Manipulation ohne aufgabenspezifisches Fine-Tuning, womit MolmoAct 2 das erste Basismodell dieser Art ist.

Das Modell basiert auf der Molmo-2-ER-Basis, die auf rund 3 Millionen zusätzlichen Embodied-Reasoning-Beispielen trainiert wurde.

Wie sehen die Benchmark-Ergebnisse in der Praxis aus?

Auf dem LIBERO-Benchmark, einem akademischen Standardtest für Roboterlernen, erreicht MolmoAct 2 eine Erfolgsquote von 97,2 %. Bei realen Aufgaben mit einem Franka-Arm-Roboter beträgt sie 87,1 %, während auf dem neuen MolmoBot-Household-Benchmark (einem Haushaltsszenario-Set) 20,6 % erzielt werden — doppelt so viel wie das zweitplatzierte Modell.

Die Lücke zwischen LIBERO und MolmoBot zeigt, wie schwierig reale, unordentliche Haushaltsbedingungen nach wie vor sind: Selbst ein Modell, das 97 % der akademischen Aufgaben löst, schafft nur ein Fünftel der realen Haushaltsszenarien.

Was veröffentlicht AI2 neben dem Modell?

Neben den Modellgewichten stellt AI2 den YAM-Datensatz mit über 720 Stunden bimanualer Demonstrationen bereit — 30-mal mehr als beim ursprünglichen MolmoAct-Datensatz — sowie vollständigen Trainingscode und ein Referenz-Hardware-Setup, das andere Labore replizieren können.

Alle Artefakte — Gewichte, Datensatz, Code und Hardware-Spezifikationen — sind öffentlich zugänglich. Dies macht MolmoAct 2 zur ersten ernsthaften offenen Antwort auf geschlossene Robotik-Foundation-Modelle und gibt Forschern, Universitäten und kleineren Unternehmen eine Basis, auf der sie eigene Anwendungen ohne Lizenzbeschränkungen aufbauen können.

Häufig gestellte Fragen

Was ist ein Robotik-Foundation-Modell?

Ein Robotik-Foundation-Modell ist ein großes Basismodell, das auf visuellen und Aktionsdaten trainiert wurde und Robotern ermöglicht, Aufgaben aus natürlicher Sprache ohne aufgabenspezifisches Fine-Tuning auszuführen.

Was sind bimanuellen Fähigkeiten in der Robotik?

Bimanuellen Fähigkeiten bedeuten, dass der Roboter zwei Arme koordiniert — z. B. hält ein Arm einen Behälter, während der andere schüttet. MolmoAct 2 ist das erste Basismodell, das dies ohne aufgabenspezifisches Training beherrscht.

Was ist der YAM-Datensatz?

Der YAM-Datensatz ist eine neue öffentliche Sammlung mit über 720 Stunden bimanualerer Roboter-Demonstrationen — 30-mal mehr als beim ursprünglichen MolmoAct-Datensatz.

Allen Institute: MolmoAct 2 ist das erste Open-Source-Robotik-Foundation-Modell, das GPT-5 und Gemini 2.5 Pro übertrifft

Welche drei Schlüsseländerungen bringt MolmoAct 2?

Wie sehen die Benchmark-Ergebnisse in der Praxis aus?

Was veröffentlicht AI2 neben dem Modell?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten