3D mesh tokeni za kontrolu pokreta u video-difuziji

Nova arXiv studija predlaže video-difuzijski model koji kontrolu ljudskog pokreta uvjetuje izravno na komprimiranim 3D mesh tokenima umjesto 2D renderiranog vodiča. Metoda u transformeru zajedno obrađuje video i motion tokene, čime postiže bolju kontrolu pokreta uz manje artefakata nego klasični 2D pristupi.

Nova studija objavljena na arXiv pod oznakom arXiv:2606.02000, naslova “Towards 3D-Aware Video Diffusion Models: Render-Free Human Motion Control with Mesh Tokenization”, predlaže pristup kontroli ljudskog pokreta u generiranju videa koji ne ovisi o klasičnom renderiranju. Autori (Liang i suradnici) zaobilaze 2D renderirane vodiče i model uvjetuju izravno na komprimiranim 3D tokenima ljudskog mesha.

Što je mesh tokenizacija?

Mesh je 3D geometrijski model ljudskog tijela sastavljen od mreže poligona. Umjesto da se taj model najprije renderira u 2D sliku koja vodi generaciju, predložena metoda geometriju pretvara u tokene, diskretne jedinice koje transformer može obrađivati. Takva reprezentacija, navode autori, “čuva potpunu 3D geometrijsku informaciju” i omogućuje jedinstveni cjevovod u kojem se video tokeni obrađuju zajedno s motion tokenima.

Kako radi arhitektura?

Sustav koristi DiT (Diffusion Transformer) arhitekturu u kojoj model “zajedno rezonira o izgledu, 3D strukturi i kutu kamere” tijekom generiranja videa. Motion tokeni i video tokeni obrađuju se istovremeno unutar istog transformera, što zahtijeva integrirano zaključivanje preko više modaliteta odjednom.

Kakvi su rezultati?

Metoda pokazuje jaku izvedbu na benchmarkovima za kontrolu ljudskog pokreta uz praktična poboljšanja: smanjuje artefakte koje izaziva 2D vodič ovisan o kutu gledanja te nepodudaranja između poze i putanje pri uređivanju. Autori zaključuju da video-difuzijski modeli, opremljeni mesh tokenizacijom, bolje hvataju složene 3D strukture ljudskog tijela i njihovu interakciju s okolinom.

Česta pitanja

Po čemu se ova metoda razlikuje od dosadašnjih?

Umjesto 2D renderiranog vodiča, generaciju videa uvjetuje izravno na komprimiranim 3D mesh tokenima koji čuvaju potpunu geometrijsku informaciju o ljudskom tijelu.

Što metoda poboljšava?

Postiže jaku izvedbu na benchmarkovima za kontrolu ljudskog pokreta uz manje artefakata uzrokovanih 2D vodičem ovisnim o kutu gledanja te nepodudaranjima poze i putanje pri uređivanju.

arXiv:2606.02000: Kontrola pokreta u video-difuziji preko 3D mesh tokena

Što je mesh tokenizacija?

Kako radi arhitektura?

Kakvi su rezultati?

Česta pitanja

Izvori

Povezane vijesti