用 3D 网格 token 实现视频扩散中的人体动作控制

一项新的 arXiv 研究提出了一种视频扩散模型，将人体动作控制直接以压缩后的 3D 网格 token 为条件，而非以 2D 渲染引导为条件。该方法在 transformer 中联合处理视频和动作 token，从而比传统 2D 方法实现更好的动作控制并减少伪影。

一项发表于 arXiv、编号为 arXiv:2606.02000、标题为「Towards 3D-Aware Video Diffusion Models: Render-Free Human Motion Control with Mesh Tokenization」的新研究，提出了一种不依赖传统渲染的视频生成人体动作控制方法。作者（Liang 等人）绕开 2D 渲染引导，将模型直接以压缩后的 3D 人体网格 token 为条件。

什么是网格 token 化？

网格（mesh）是由多边形网构成的人体 3D 几何模型。所提出的方法不是先将该模型渲染成引导生成的 2D 图像，而是将几何结构转化为 token，即 transformer 可以处理的离散单元。作者表示，这种表示「完整保留了 3D 几何信息」，并实现了一条统一的流水线，使视频 token 与动作 token 一同处理。

该架构如何工作？

该系统采用 DiT（Diffusion Transformer）架构，模型在生成视频期间「对外观、3D 结构和相机角度进行联合推理」。动作 token 和视频 token 在同一个 transformer 内同时处理，这需要一次性跨多个模态进行集成推理。

结果如何？

该方法在人体动作控制基准上表现强劲，并带来实际改进：减少了由依赖视角的 2D 引导所导致的伪影，以及编辑时姿态与轨迹之间的不匹配。作者得出结论，配备网格 token 化的视频扩散模型能更好地捕捉人体复杂的 3D 结构及其与环境的交互。

常见问题

这种方法与以往方法有何不同？

它不使用 2D 渲染引导，而是将视频生成直接以压缩后的 3D 网格 token 为条件，这些 token 完整保留了人体的几何信息。

该方法改进了什么？

它在人体动作控制基准上取得了强劲表现，同时减少了由依赖视角的 2D 引导所导致的伪影，以及编辑时姿态与轨迹的不匹配。

arXiv:2606.02000：通过 3D 网格 token 控制视频扩散中的动作

什么是网格 token 化？

该架构如何工作？

结果如何？

常见问题

来源

相关新闻