🟡 🤝 Agenti Objavljeno: · 2 min čitanja ·

arXiv:2606.20521: Egocentrični video čovjeka nadmašuje robotske podatke za predobuku utjelovljenih AI modela

arXiv:2606.20521 ↗

Urednička ilustracija: Egocentrični video čovjeka nadmašuje robotske podatke za predobuku utjelovljenih AI modela

HumanScale je sustavna usporedba (Peking University i MIT, 21 autor) koja pokazuje da filtrirani egocentrični video čovjeka daje 52,5 % veći uspjeh na poznatim zadacima i čak 90 % veći uspjeh na nepoznatim zadacima manipulacije robotom u odnosu na modele predobučene isključivo na robotskim podacima.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Egocentrični video čovjeka kao predobučidbeni izvor za robotiku

Egocentrični video (snimljen iz perspektive prvog lica dok čovjek obavlja svakodnevne aktivnosti) dosad je u robotici bio podcjenjen kao izvor predobučidbenih podataka. Istraživanje HumanScale, koje potpisuje 21 ko-autor s Peking Universityja i MITa, to sada mijenja sustavnom, kvantitativnom usporedbom.

Rad je podnesen 18. lipnja 2026. i objavljen dan kasnije na arXiv platformi (arXiv:2606.20521).

Ključni rezultati: +90 % na zadacima van distribucije

Modeli predobučeni na filtriranom egocentričnom videu čovjeka postigli su:

  • 24 % niži validation loss u odnosu na modele predobučene na teloperiranim robotskim podacima,
  • 52,5 % veći uspjeh na zadacima unutar distribucije (in-distribution),
  • 90 % veći uspjeh na zadacima manipulacije robotom van distribucije (out-of-distribution).

Usporedba je direktna: isti arhitekturalni okvir utjelovljenog temelja, jedina razlika je izvor predobučidbenih podataka — filtrirani egocentrični video čovjeka naspram teleoperiranih robotskih demonstracija.

Zašto robotski podaci zaostaju

Teleoperiranim robotskim podacima nedostaje raznolikost. Skupljanje takvih podataka skupo je, sporije i geografski ograničeno. Egocentrični video, nasuprot tome, postoji u ogromnim količinama (EGO4D, EPIC-Kitchens i slični skupovi) i prirodno pokriva širok raspon manipulativnih radnji iz perspektive prve osobe — gotovo identične onoj što je robot „vidi” vlastitim kamerama.

Predložena paradigma predobuke

HumanScale predlaže dvofazni pristup:

  1. Predobuka na velikom skupu filtriranog egocentričnog videa čovjeka — jeftino i skalabilno.
  2. Fine-tuning s ograničenim označenim robotskim podacima isključivo radi usklađivanja akcija.

Ovaj pristup potencijalno značajno smanjuje cijenu skupljanja robotskih podataka, što je danas jedna od glavnih prepreka za razvoj generaliziranih robotskih politika.

Česta pitanja

Zašto je egocentrični video čovjeka bolji od robotskih podataka za predobuku?
Egocentrični video čovjeka nudi daleko veću raznolikost interakcija s objektima i okruženjima, što modelu daje širu osnovu za generalizaciju — posebno na zadacima van distribucije gdje robotski podaci zataje.
Koji je preporučeni pristup treniranja po HumanScale studiji?
Predobuka na velikom skupu filtriranog egocentričnog videa čovjeka, nakon čega slijedi fine-tuning s ograničenim označenim robotskim podacima radi usklađivanja s akcijama robota.
Koliko autora stoji iza HumanScale istraživanja i tko su institucije?
Iza rada stoji 21 ko-autor s Peking Universityja i MITa; rad je podnesen 18. lipnja 2026. i objavljen 19. lipnja 2026.