arXiv:2606.20521: 人間の一人称視点動画はロボットデータを上回る——身体的AIモデルの事前学習において
HumanScaleは北京大学とMITによる21名の著者による系統的な比較研究です。フィルタリングされた人間の一人称視点動画を使って事前学習したモデルは、ロボットデータのみで事前学習したモデルと比べ、既知タスクで52.5%、未知のロボット操作タスクでは90%も高い成功率を達成することを示しています。
この記事はAIにより一次情報源から生成されました。
ロボティクスの事前学習データ源としての人間一人称視点動画
一人称視点動画(人間が日常活動を行う際に一人称視点で記録した動画)は、これまでロボティクスにおける事前学習データとして過小評価されてきました。北京大学とMITの21名の共著者によるHumanScale研究は、系統的かつ定量的な比較によってその状況を変えます。
この論文は2026年6月18日に投稿され、翌日arXivプラットフォームで公開されました(arXiv:2606.20521)。
主な結果:分布外タスクで+90%
フィルタリングされた人間の一人称視点動画で事前学習したモデルは以下の結果を達成しました。
- 遠隔操作ロボットデータで事前学習したモデルと比べ、検証損失が24%低下、
- 分布内タスクで成功率が52.5%向上、
- 分布外ロボット操作タスクで成功率が90%向上。
比較は直接的です。同じ身体的基盤アーキテクチャフレームワークを使用し、唯一の違いは事前学習データのソース——フィルタリングされた人間の一人称視点動画か、遠隔操作ロボットのデモンストレーションか——のみです。
ロボットデータが遅れをとる理由
遠隔操作ロボットデータには多様性が欠けています。そのようなデータの収集はコストが高く、遅く、地理的に制限されています。一方、一人称視点動画はEGO4DやEPIC-Kitchensなどのデータセットとして膨大な量が存在し、一人称視点からの幅広い操作動作を自然にカバーしています——これはロボットが自身のカメラを通じて「見る」視点とほぼ同一です。
提案される事前学習パラダイム
HumanScaleは二段階アプローチを提案しています。
- 事前学習:大規模なフィルタリング済み人間一人称視点動画で事前学習——安価でスケーラブルです。
- ファインチューニング:動作整合のためだけに、限られたラベル付きロボットデータでファインチューニングを行います。
このアプローチはロボットデータの収集コストを大幅に削減できる可能性があり、これは現在、汎用ロボットポリシーの開発における主要な障壁の一つとなっています。
よくある質問
- 事前学習において人間の一人称視点動画がロボットデータより優れているのはなぜですか?
- 人間の一人称視点動画は、物体とのインタラクションや環境の多様性がはるかに豊富であり、モデルに幅広い汎化の基盤を提供します。特に、ロボットデータでは対応が難しい分布外タスクで有効です。
- HumanScale研究が推奨するトレーニング手法はどのようなものですか?
- 大規模なフィルタリング済み人間一人称視点動画で事前学習を行い、その後、ロボット動作に合わせるために限られたラベル付きロボットデータでファインチューニングを行います。
- HumanScale研究には何名の著者がおり、どの機関が関与していますか?
- この論文には北京大学とMITの21名の共著者がいます。2026年6月18日に投稿され、2026年6月19日に公開されました。