🔴 📦 Open Source Mittwoch, 6. Mai 2026 · 2 Min. Lesezeit ·

Allen Institute: MolmoAct 2 ist das erste Open-Source-Robotik-Foundation-Modell, das GPT-5 und Gemini 2.5 Pro übertrifft

Redaktionelle Illustration: zweiarmiger Franka-Roboter mit offener Box im Labor, symbolisiert das Open-Source-Foundation-Modell MolmoAct 2

MolmoAct 2 ist ein Open-Source-Robotik-Foundation-Modell, das Allen Institute for AI am 5. Mai veröffentlicht hat. Das Modell erzielt 63,8/100 auf Embodied-Reasoning-Benchmarks, übertrifft GPT-5 und Gemini 2.5 Pro, beschleunigt die Inferenz um den Faktor 37 und ist das erste Basismodell mit eingebetteten bimanuellen Fähigkeiten.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Allen Institute for AI (AI2) hat am 5. Mai 2026 MolmoAct 2 veröffentlicht — das erste Open-Source-Robotik-Foundation-Modell, das geschlossene Systeme wie Physical Intelligence sowie die Frontier-Modelle GPT-5 und Gemini 2.5 Pro auf Embodied-Reasoning-Benchmarks übertrifft.

Ein Robotik-Foundation-Modell ist ein großes Basismodell, das auf einer Kombination aus visuellen und Aktionsdaten trainiert wurde und einen Roboter in die Lage versetzt, vielfältige physische Aufgaben aus natürlicher Sprache heraus auszuführen — ohne aufgabenspezifisches Training.

Welche drei Schlüsseländerungen bringt MolmoAct 2?

Die erste Änderung ist die rohe Leistung: Das Modell erzielt 63,8/100 auf Embodied-Reasoning-Benchmarks und liegt damit vor GPT-5 und Gemini 2.5 Pro. Die zweite ist eine drastische Beschleunigung — durch Optimierung des KV-Cache-Bridges zwischen Vision-Modell und Action-Expert wurde die Inferenz um den Faktor 37 beschleunigt, von 6,7 Sekunden auf 180 Millisekunden pro Aktion. Die dritte ist die eingebaute Bimanuali­tät — koordinierte Zwei-Arm-Manipulation ohne aufgabenspezifisches Fine-Tuning, womit MolmoAct 2 das erste Basismodell dieser Art ist.

Das Modell basiert auf der Molmo-2-ER-Basis, die auf rund 3 Millionen zusätzlichen Embodied-Reasoning-Beispielen trainiert wurde.

Wie sehen die Benchmark-Ergebnisse in der Praxis aus?

Auf dem LIBERO-Benchmark, einem akademischen Standardtest für Roboterlernen, erreicht MolmoAct 2 eine Erfolgsquote von 97,2 %. Bei realen Aufgaben mit einem Franka-Arm-Roboter beträgt sie 87,1 %, während auf dem neuen MolmoBot-Household-Benchmark (einem Haushaltsszenario-Set) 20,6 % erzielt werden — doppelt so viel wie das zweitplatzierte Modell.

Die Lücke zwischen LIBERO und MolmoBot zeigt, wie schwierig reale, unordentliche Haushaltsbedingungen nach wie vor sind: Selbst ein Modell, das 97 % der akademischen Aufgaben löst, schafft nur ein Fünftel der realen Haushaltsszenarien.

Was veröffentlicht AI2 neben dem Modell?

Neben den Modellgewichten stellt AI2 den YAM-Datensatz mit über 720 Stunden bimanualer Demonstrationen bereit — 30-mal mehr als beim ursprünglichen MolmoAct-Datensatz — sowie vollständigen Trainingscode und ein Referenz-Hardware-Setup, das andere Labore replizieren können.

Alle Artefakte — Gewichte, Datensatz, Code und Hardware-Spezifikationen — sind öffentlich zugänglich. Dies macht MolmoAct 2 zur ersten ernsthaften offenen Antwort auf geschlossene Robotik-Foundation-Modelle und gibt Forschern, Universitäten und kleineren Unternehmen eine Basis, auf der sie eigene Anwendungen ohne Lizenzbeschränkungen aufbauen können.

Häufig gestellte Fragen

Was ist ein Robotik-Foundation-Modell?
Ein Robotik-Foundation-Modell ist ein großes Basismodell, das auf visuellen und Aktionsdaten trainiert wurde und Robotern ermöglicht, Aufgaben aus natürlicher Sprache ohne aufgabenspezifisches Fine-Tuning auszuführen.
Was sind bimanuellen Fähigkeiten in der Robotik?
Bimanuellen Fähigkeiten bedeuten, dass der Roboter zwei Arme koordiniert — z. B. hält ein Arm einen Behälter, während der andere schüttet. MolmoAct 2 ist das erste Basismodell, das dies ohne aufgabenspezifisches Training beherrscht.
Was ist der YAM-Datensatz?
Der YAM-Datensatz ist eine neue öffentliche Sammlung mit über 720 Stunden bimanualerer Roboter-Demonstrationen — 30-mal mehr als beim ursprünglichen MolmoAct-Datensatz.