動画拡散の人間の動作制御のための 3D メッシュトークン

新しい arXiv の研究は、人間の動作制御を 2D レンダリングされたガイドではなく、圧縮された 3D メッシュトークンに直接条件付ける動画拡散モデルを提案する。この手法はトランスフォーマー内で動画トークンとモーショントークンを一緒に処理し、従来の 2D アプローチよりも少ないアーティファクトで優れた動作制御を実現する。

arXiv に arXiv:2606.02000 という識別子、「Towards 3D-Aware Video Diffusion Models: Render-Free Human Motion Control with Mesh Tokenization」というタイトルで公開された新しい研究は、古典的なレンダリングに依存しない動画生成における人間の動作制御へのアプローチを提案する。著者ら (Liang ら) は 2D レンダリングされたガイドを回避し、モデルを人体メッシュの圧縮された 3D トークンに直接条件付ける。

メッシュトークン化とは何か?

メッシュとは、ポリゴンのネットワークで構成された人体の 3D 幾何モデルである。そのモデルをまず生成を導く 2D 画像にレンダリングする代わりに、提案手法は幾何をトークン、すなわちトランスフォーマーが処理できる離散的な単位に変換する。著者らによれば、こうした表現は「完全な 3D 幾何情報を保持」し、動画トークンがモーショントークンと一緒に処理される統一されたパイプラインを可能にする。

アーキテクチャはどのように動作するのか?

このシステムは DiT (Diffusion Transformer) アーキテクチャを用い、その中でモデルは動画生成中に「外観・3D 構造・カメラ角度について一緒に推論する」。モーショントークンと動画トークンは同じトランスフォーマー内で同時に処理され、複数のモダリティにまたがる統合的な推論を一度に必要とする。

結果はどうだったのか?

この手法は人間の動作制御のベンチマークで高い性能を示し、実用的な改善を伴う。視点角度に依存する 2D ガイドが引き起こすアーティファクトや、編集時のポーズと軌道の間の不一致を低減する。著者らは、メッシュトークン化を備えた動画拡散モデルが、人体の複雑な 3D 構造とその環境との相互作用をよりよく捉えると結論付けている。

よくある質問

この手法はこれまでのものとどう違いますか?

2D レンダリングされたガイドの代わりに、人体の完全な幾何情報を保持する圧縮された 3D メッシュトークンに動画生成を直接条件付けます。

この手法は何を改善しますか?

人間の動作制御のベンチマークで高い性能を達成し、視点角度に依存する 2D ガイドが引き起こすアーティファクトや、編集時のポーズと軌道の不一致を低減します。

arXiv:2606.02000: 3D メッシュトークンによる動画拡散の動作制御

メッシュトークン化とは何か?

アーキテクチャはどのように動作するのか?

結果はどうだったのか?

よくある質問

出典

関連ニュース