arXiv:2606.20521: Egocentrični video čovjeka nadmašuje robotske podatke za predobuku utjelovljenih AI modela
HumanScale je sustavna usporedba (Peking University i MIT, 21 autor) koja pokazuje da filtrirani egocentrični video čovjeka daje 52,5 % veći uspjeh na poznatim zadacima i čak 90 % veći uspjeh na nepoznatim zadacima manipulacije robotom u odnosu na modele predobučene isključivo na robotskim podacima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Egocentrični video čovjeka kao predobučidbeni izvor za robotiku
Egocentrični video (snimljen iz perspektive prvog lica dok čovjek obavlja svakodnevne aktivnosti) dosad je u robotici bio podcjenjen kao izvor predobučidbenih podataka. Istraživanje HumanScale, koje potpisuje 21 ko-autor s Peking Universityja i MITa, to sada mijenja sustavnom, kvantitativnom usporedbom.
Rad je podnesen 18. lipnja 2026. i objavljen dan kasnije na arXiv platformi (arXiv:2606.20521).
Ključni rezultati: +90 % na zadacima van distribucije
Modeli predobučeni na filtriranom egocentričnom videu čovjeka postigli su:
- 24 % niži validation loss u odnosu na modele predobučene na teloperiranim robotskim podacima,
- 52,5 % veći uspjeh na zadacima unutar distribucije (in-distribution),
- 90 % veći uspjeh na zadacima manipulacije robotom van distribucije (out-of-distribution).
Usporedba je direktna: isti arhitekturalni okvir utjelovljenog temelja, jedina razlika je izvor predobučidbenih podataka — filtrirani egocentrični video čovjeka naspram teleoperiranih robotskih demonstracija.
Zašto robotski podaci zaostaju
Teleoperiranim robotskim podacima nedostaje raznolikost. Skupljanje takvih podataka skupo je, sporije i geografski ograničeno. Egocentrični video, nasuprot tome, postoji u ogromnim količinama (EGO4D, EPIC-Kitchens i slični skupovi) i prirodno pokriva širok raspon manipulativnih radnji iz perspektive prve osobe — gotovo identične onoj što je robot „vidi” vlastitim kamerama.
Predložena paradigma predobuke
HumanScale predlaže dvofazni pristup:
- Predobuka na velikom skupu filtriranog egocentričnog videa čovjeka — jeftino i skalabilno.
- Fine-tuning s ograničenim označenim robotskim podacima isključivo radi usklađivanja akcija.
Ovaj pristup potencijalno značajno smanjuje cijenu skupljanja robotskih podataka, što je danas jedna od glavnih prepreka za razvoj generaliziranih robotskih politika.
Česta pitanja
- Zašto je egocentrični video čovjeka bolji od robotskih podataka za predobuku?
- Egocentrični video čovjeka nudi daleko veću raznolikost interakcija s objektima i okruženjima, što modelu daje širu osnovu za generalizaciju — posebno na zadacima van distribucije gdje robotski podaci zataje.
- Koji je preporučeni pristup treniranja po HumanScale studiji?
- Predobuka na velikom skupu filtriranog egocentričnog videa čovjeka, nakon čega slijedi fine-tuning s ograničenim označenim robotskim podacima radi usklađivanja s akcijama robota.
- Koliko autora stoji iza HumanScale istraživanja i tko su institucije?
- Iza rada stoji 21 ko-autor s Peking Universityja i MITa; rad je podnesen 18. lipnja 2026. i objavljen 19. lipnja 2026.
Izvori
Povezane vijesti
arXiv:2606.20493: Contagion Networks — kako pristranost evaluatora zarazi cijeli multi-agent sustav
arXiv:2606.20487: H-RePlan — hijerarhijski oporavak AI agenata na više uređaja
GitHub: interni analitički agent Qubot smanjio vrijeme rješavanja upita za oko 66 posto