🔴 📦 オープンソース 2026年5月6日水曜日 · 2 分で読めます ·

Allen Institute: MolmoAct 2 はGPT-5・Gemini 2.5 Proを上回る初のオープンソースロボティクス基盤モデル

編集イラスト:実験室でFrankaアームの二腕ロボットが箱を開けており、オープンソースのMolmoAct 2基盤モデルを象徴している

MolmoAct 2 は Allen Institute for AI が 5 月 5 日に公開したオープンソースのロボティクス基盤モデルです。具身推論ベンチマークで 63.8/100 を達成し、GPT-5 および Gemini 2.5 Pro を上回ります。推論速度は 37 倍向上し、バイマニュアル能力を内蔵した初の基盤モデルです。

🤖

この記事はAIにより一次情報源から生成されました。

Allen Institute for AI(AI2)は 2026 年 5 月 5 日、MolmoAct 2 を発表しました。これは具身推論ベンチマークにおいて Physical Intelligence などのクローズドシステムや GPT-5・Gemini 2.5 Pro といったフロンティアモデルを上回る、初のオープンソースロボティクス基盤モデルです。

ロボティクス基盤モデルとは、視覚データと行動データの組み合わせで学習した大規模基盤モデルであり、新しいシナリオごとに専用のトレーニングを行うことなく、自然言語からロボットが多様な物理タスクを実行できるようにするものです。

MolmoAct 2 の 3 つの主要な改善点は何ですか?

第一の改善点は純粋な性能です:モデルは具身推論ベンチマークで 63.8/100 を達成し、GPT-5 と Gemini 2.5 Pro を上回りました。第二は大幅な高速化——ビジョンモデルとアクションエキスパート間の KV-cache ブリッジを最適化することで、推論速度は37 倍向上し、1 アクションあたり 6.7 秒から 180 ミリ秒に短縮されました。第三はバイマニュアル機能の内蔵——タスクごとのファインチューニングなしに両手を協調させる動作を実現し、MolmoAct 2 はこの種の初の基盤モデルとなりました。

モデルは約 300 万件の追加具身推論サンプルで学習した Molmo 2-ER ベース上に構築されています。

実際のベンチマーク結果はどうですか?

ロボット学習の標準学術ベンチマークである LIBERO テストでは、MolmoAct 2 は 97.2% の成功率を達成しました。Franka アームロボットを使った実際のタスクでは 87.1%、新しい MolmoBot 家庭ベンチマーク(家庭タスクの集合)では 20.6% を達成しており、これは 2 位のモデルの 2 倍です。

LIBERO と MolmoBot の差は、現実の雑然とした家庭環境がいかに困難かを示しています:学術タスクの 97% を解決できるモデルでも、実際の家庭シナリオでは 5 分の 1 程度しか成功しません。

AI2 はモデルとともに何を公開しましたか?

モデルの重みに加え、AI2 は 720 時間以上のバイマニュアルデモンストレーションを含む YAM データセットを公開しました。これは元の MolmoAct データセットの 30 倍の規模です。また、完全なトレーニングコードや他のラボが再現できるリファレンスハードウェア構成も含まれています。

すべての成果物——重み、データセット、コード、ハードウェア仕様——が公開されています。これにより MolmoAct 2 は、クローズドなロボティクス基盤モデルに対する初の本格的なオープンな代替案となり、研究者、大学、小規模企業がライセンス制限なしに独自のアプリケーションを構築するための基盤を提供します。

よくある質問

ロボティクス基盤モデルとは何ですか?
ロボティクス基盤モデルは、視覚データと行動データを組み合わせて学習した大規模基盤モデルです。新しいシナリオごとに個別のファインチューニングを行うことなく、自然言語の指示からロボットが多様な物理タスクを実行できるようにします。
ロボティクスにおけるバイマニュアル能力とは何ですか?
バイマニュアル能力とは、ロボットが単一タスクで両腕を協調させる能力のことです。たとえば片方の手で容器を押さえながら、もう片方で中身を注ぐといった動作です。MolmoAct 2 は、タスクごとのファインチューニングなしにこれを実現する初の基盤モデルです。
YAM データセットとは何ですか?
YAM データセットは AI2 がモデルとともに公開する新しい公開データセットで、720 時間以上のバイマニュアルロボットデモンストレーションを含んでいます。これは元の MolmoAct データセットの 30 倍の規模です。