arXiv:2606.20521: Egozentrische Menschenvideos übertreffen Roboterdaten beim Vortraining von verkörperten KI-Modellen
HumanScale ist ein systematischer Vergleich (Peking University und MIT, 21 Autoren), der zeigt, dass gefiltertes egozentrisch aufgenommenes Menschenvideo eine um 52,5 % höhere Erfolgsrate bei bekannten Aufgaben und sogar eine um 90 % höhere Erfolgsrate bei unbekannten Robotermanipulationsaufgaben erzielt als Modelle, die ausschließlich auf Roboterdaten vortrainiert wurden.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Egozentrische Menschenvideos als Vortraining-Quelle für die Robotik
Egozentrische Videos (aus der Egoperspektive aufgezeichnet, während eine Person alltägliche Aktivitäten ausführt) wurden in der Robotik bislang als Quelle für Vortraining-Daten unterschätzt. Die HumanScale-Studie, die von 21 Ko-Autoren der Peking University und des MIT verfasst wurde, ändert dies nun mit einem systematischen, quantitativen Vergleich.
Die Arbeit wurde am 18. Juni 2026 eingereicht und einen Tag später auf der arXiv-Plattform veröffentlicht (arXiv:2606.20521).
Schlüsselergebnisse: +90 % bei Out-of-Distribution-Aufgaben
Modelle, die auf gefiltertem egozentrischen Menschenvideo vortrainiert wurden, erzielten:
- 24 % niedrigeren Validierungsverlust im Vergleich zu Modellen, die auf teleoperierter Roboterdaten vortrainiert wurden,
- 52,5 % höhere Erfolgsrate bei In-Distribution-Aufgaben,
- 90 % höhere Erfolgsrate bei Out-of-Distribution-Robotermanipulationsaufgaben.
Der Vergleich ist direkt: dasselbe architektonische Rahmenwerk für das verkörperte Fundament, der einzige Unterschied ist die Quelle der Vortraining-Daten — gefiltertes egozentrisch aufgenommenes Menschenvideo gegenüber teleoperierter Roboterdemonstration.
Warum Roboterdaten zurückfallen
Teleoperierte Roboterdaten mangelt es an Vielfalt. Das Sammeln solcher Daten ist teuer, langsamer und geografisch begrenzt. Egozentrische Videos hingegen sind in enormen Mengen vorhanden (EGO4D, EPIC-Kitchens und ähnliche Datensätze) und decken auf natürliche Weise ein breites Spektrum an Manipulationshandlungen aus der Egoperspektive ab — nahezu identisch mit dem, was ein Roboter durch seine eigenen Kameras „sieht”.
Vorgeschlagenes Vortraining-Paradigma
HumanScale schlägt einen zweiphasigen Ansatz vor:
- Vortraining auf einem großen Satz gefilterter egozentrischer Menschenvideos — kostengünstig und skalierbar.
- Fine-Tuning mit begrenzten beschrifteten Roboterdaten ausschließlich zur Aktionsanpassung.
Dieser Ansatz hat das Potenzial, die Kosten für das Sammeln von Roboterdaten erheblich zu senken, was derzeit eines der Haupthindernisse für die Entwicklung generalisierter Roboterrichtlinien darstellt.
Häufig gestellte Fragen
- Warum sind egozentrische Menschenvideos beim Vortraining besser als Roboterdaten?
- Egozentrische Menschenvideos bieten eine weit größere Vielfalt an Objekt-Interaktionen und Umgebungen, was dem Modell eine breitere Grundlage zur Generalisierung bietet — besonders bei Out-of-Distribution-Aufgaben, bei denen Roboterdaten versagen.
- Welchen Trainingsansatz empfiehlt die HumanScale-Studie?
- Vortraining auf einem großen Satz gefilterter egozentrischer Menschenvideos, gefolgt von Fine-Tuning mit begrenzten beschrifteten Roboterdaten zur Anpassung an Roboteraktionen.
- Wie viele Autoren stehen hinter der HumanScale-Forschung und welche Institutionen sind beteiligt?
- Hinter der Arbeit stehen 21 Ko-Autoren der Peking University und des MIT; die Arbeit wurde am 18. Juni 2026 eingereicht und am 19. Juni 2026 veröffentlicht.
Quellen
Verwandte Nachrichten
arXiv:2606.20493: Contagion Networks — wie die Verzerrung eines Evaluators das gesamte Multi-Agenten-System infiziert
arXiv:2606.20487: H-RePlan — Hierarchische Wiederherstellung von KI-Agenten auf mehreren Geräten
GitHub: Interner Analyse-Agent Qubot verkürzte Abfragezeit um rund 66 Prozent