비디오 디퓨전의 인간 모션 제어를 위한 3D 메시 토큰화

새로운 arXiv 연구는 인간 모션 제어를 2D 렌더링 가이드 대신 압축된 3D 메시 토큰에 직접 조건화하는 비디오 디퓨전 모델을 제안한다. 이 방법은 트랜스포머에서 비디오와 모션 토큰을 함께 처리하여, 기존 2D 접근법보다 더 적은 아티팩트로 더 나은 모션 제어를 달성한다.

arXiv에 arXiv:2606.02000 식별자로, “Towards 3D-Aware Video Diffusion Models: Render-Free Human Motion Control with Mesh Tokenization”라는 제목으로 공개된 새로운 연구는 기존의 렌더링에 의존하지 않는 비디오 생성에서의 인간 모션 제어 접근법을 제안한다. 저자들(Liang 외)은 2D 렌더링 가이드를 우회하고 모델을 압축된 3D 인간 메시 토큰에 직접 조건화한다.

메시 토큰화란 무엇인가?

메시는 폴리곤 망으로 구성된 인간 신체의 3D 기하 모델이다. 이 모델을 먼저 생성을 안내하는 2D 이미지로 렌더링하는 대신, 제안된 방법은 기하 구조를 트랜스포머가 처리할 수 있는 이산 단위인 토큰으로 변환한다. 저자들에 따르면 이러한 표현은 “완전한 3D 기하 정보를 보존”하며, 비디오 토큰이 모션 토큰과 함께 처리되는 통합 파이프라인을 가능하게 한다.

아키텍처는 어떻게 작동하는가?

시스템은 모델이 비디오 생성 중 “외형, 3D 구조, 카메라 각도에 대해 함께 추론하는” DiT(Diffusion Transformer) 아키텍처를 사용한다. 모션 토큰과 비디오 토큰은 동일한 트랜스포머 안에서 동시에 처리되며, 이는 여러 모달리티에 걸친 통합된 추론을 한 번에 요구한다.

결과는 어떤가?

이 방법은 인간 모션 제어 벤치마크에서 강력한 성능을 보이며 실용적인 개선을 이룬다: 시점에 의존하는 2D 가이드가 유발하는 아티팩트와 편집 시 포즈와 궤적 간의 불일치를 줄인다. 저자들은 메시 토큰화를 갖춘 비디오 디퓨전 모델이 인간 신체의 복잡한 3D 구조와 그 환경과의 상호작용을 더 잘 포착한다고 결론짓는다.

자주 묻는 질문

이 방법은 기존 방법과 어떻게 다른가요?

2D 렌더링 가이드 대신, 인간 신체에 대한 완전한 기하 정보를 보존하는 압축된 3D 메시 토큰에 비디오 생성을 직접 조건화합니다.

이 방법은 무엇을 개선하나요?

인간 모션 제어 벤치마크에서 강력한 성능을 달성하며, 시점에 의존하는 2D 가이드로 인한 아티팩트와 편집 시 포즈·궤적 불일치를 줄입니다.

arXiv:2606.02000: 3D 메시 토큰을 통한 비디오 디퓨전의 모션 제어

메시 토큰화란 무엇인가?

아키텍처는 어떻게 작동하는가?

결과는 어떤가?

자주 묻는 질문

출처

관련 뉴스