arXiv:2606.20521: 人类自我中心视频在具身AI模型预训练中优于机器人数据
HumanScale是一项系统性对比研究(北京大学与MIT,21位作者),结果显示:经过筛选的人类自我中心视频在已知任务上的成功率比仅使用机器人数据预训练的模型高出52.5%,在未知机器人操作任务上则高出90%。
本文由人工智能基于一手来源生成。
人类自我中心视频作为机器人预训练数据源
自我中心视频(以第一人称视角记录人类日常活动的视频)迄今在机器人领域被低估为预训练数据来源。HumanScale研究由北京大学和MIT的21位联合作者共同撰写,通过系统性、定量化的对比改变了这一现状。
论文于2026年6月18日提交,并于次日发布在arXiv平台(arXiv:2606.20521)。
核心结果:分布外任务成功率提升90%
在经过筛选的人类自我中心视频上预训练的模型取得了以下成绩:
- 与在遥操作机器人数据上预训练的模型相比,验证损失降低24%,
- 分布内任务成功率提升52.5%,
- 分布外机器人操作任务成功率提升90%。
对比是直接的:相同的具身基础架构框架,唯一区别在于预训练数据来源——经筛选的人类自我中心视频与遥操作机器人演示数据。
机器人数据为何落后
遥操作机器人数据缺乏多样性。收集此类数据成本高、速度慢,且受地域限制。相比之下,自我中心视频数量庞大(EGO4D、EPIC-Kitchens等数据集),并自然涵盖了大量以第一人称视角呈现的操作动作——与机器人通过自身摄像头所”看到”的视角几乎一致。
提议的预训练范式
HumanScale提出了两阶段方法:
- 预训练:在大规模筛选过的人类自我中心视频上进行预训练——成本低、可扩展。
- 微调:使用少量有标注的机器人数据,仅用于动作对齐。
这一方法有望大幅降低机器人数据的收集成本,而数据收集成本目前是开发通用机器人策略的主要瓶颈之一。
常见问题
- 为什么人类自我中心视频在预训练中优于机器人数据?
- 人类自我中心视频提供了更丰富的物体交互与环境多样性,使模型具备更广泛的泛化基础——尤其在分布外任务上,机器人数据往往表现不佳。
- HumanScale研究推荐哪种训练方法?
- 先在大规模筛选过的人类自我中心视频上进行预训练,再用少量有标注的机器人数据进行微调,以对齐机器人动作。
- HumanScale研究有多少作者,来自哪些机构?
- 该论文共有21位联合作者,来自北京大学和MIT;论文于2026年6月18日提交,2026年6月19日发布。