MolmoAct 2: open-source robotika nadmašuje GPT-5

MolmoAct 2 je open-source robotics foundation model koji je 5. svibnja objavio Allen Institute for AI. Model postiže 63,8/100 na embodied-reasoning benchmarkima, nadmašuje GPT-5 i Gemini 2.5 Pro, ubrzava inference 37 puta i prvi je base model s ugrađenim bimanualnim sposobnostima.

Allen Institute for AI (AI2) objavio je 5. svibnja 2026. MolmoAct 2, prvi open-source robotics foundation model koji nadmašuje zatvorene sustave poput Physical Intelligencea te frontier modele GPT-5 i Gemini 2.5 Pro na embodied-reasoning benchmarkima.

Foundation model za robotiku je veliki temeljni model treniran na kombinaciji vizualnih i akcijskih podataka koji omogućuje robotu da izvršava raznolike fizičke zadatke iz prirodnog jezika, bez posebnog treniranja za svaki novi scenarij.

Koje su tri ključne promjene u MolmoAct 2?

Prva promjena je sirova performansa: model postiže 63,8/100 na embodied-reasoning benchmarkima, što ga stavlja ispred GPT-5 i Gemini 2.5 Pro. Druga je drastično ubrzanje — optimizacijom KV-cache bridgea između vision modela i action experta inference je ubrzan 37 puta, sa 6,7 sekundi na 180 milisekundi po akciji. Treća je ugrađena bimanualnost — koordinirano rukovanje s dvije ruke bez per-task fine-tuninga, čime je MolmoAct 2 prvi base model takve vrste.

Model je izgrađen na Molmo 2-ER bazi treniranoj na otprilike 3 milijuna dodatnih primjera embodied-reasoninga.

Kakvi su benchmark rezultati u praksi?

Na LIBERO testu, standardnom akademskom benchmarku za robotsko učenje, MolmoAct 2 postiže 97,2% uspješnosti. Na realnim zadacima s Franka arm robotom uspješnost je 87,1%, dok na novom MolmoBot household benchmarku (skup kućanskih zadataka) postiže 20,6% — što je dvostruko više od drugoplasiranog modela.

Razlika između LIBERO-a i MolmoBota pokazuje koliko su realni neuredni kućanski uvjeti i dalje teški: čak i model koji rješava 97% akademskih zadataka uspijeva u tek petini stvarnih kućanskih scenarija.

Što AI2 objavljuje uz model?

Uz težine modela AI2 objavljuje i YAM Dataset s preko 720 sati bimanualnih demonstracija, što je 30 puta više od originalnog MolmoAct dataseta. Tu je i kompletan trenažni kod te referentni hardverski setup koji druge laboratorije mogu replicirati.

Svi artefakti — težine, dataset, kod i specifikacije hardvera — javno su dostupni. To MolmoAct 2 čini prvim ozbiljnim otvorenim odgovorom na zatvorene robotics foundation modele i daje istraživačima, sveučilištima i manjim tvrtkama bazu na kojoj mogu graditi vlastite primjene bez licencnih ograničenja.

Česta pitanja

Što je robotics foundation model?

Robotics foundation model je veliki temeljni model treniran na vizualnim i akcijskim podacima koji robotima omogućuje izvršavanje zadataka iz prirodnog jezika bez fine-tuninga za svaki novi zadatak.

Što su bimanualne sposobnosti u robotici?

Bimanualne sposobnosti znače da robot koordinira dvije ruke u jednom zadatku, primjerice da jednom rukom drži posudu, a drugom pretače sadržaj. MolmoAct 2 je prvi base model koji to radi bez per-task treniranja.

Što je YAM Dataset?

YAM Dataset je novi javni skup od preko 720 sati bimanualnih robotskih demonstracija koji AI2 objavljuje uz model. To je 30 puta više demonstracija od originalnog MolmoAct dataseta.

Allen Institute: MolmoAct 2 je prvi open-source robotics foundation model koji nadmašuje GPT-5 i Gemini 2.5 Pro

Koje su tri ključne promjene u MolmoAct 2?

Kakvi su benchmark rezultati u praksi?

Što AI2 objavljuje uz model?

Česta pitanja

Izvori

Povezane vijesti