Google Photos 자동 프레임, 3D 모델과 확산 기술로 화면 확장
왜 중요한가
Google Photos에 자동 프레임 기능이 추가되었습니다. 이 기능은 2D 사진을 3D 장면으로 해석하고 기하학적 구조와 카메라 매개변수를 평가한 다음, 잠재적 확산 모델을 사용하여 원래 화면 밖의 내용을 생성하여 대안적인 구도를 제공합니다.
Google Research가 자동 프레임을 발표했습니다——Google Photos 앱에서 기존 사진의 대안적인 구도를 자동으로 제공하는 새로운 기능입니다. 단순한 버튼 뒤에는 3D 장면 추정과 생성 모델의 조합이 숨겨져 있습니다.
자동 프레임은 2D 사진을 어떻게 3D 장면으로 변환합니까?
파이프라인의 첫 번째 단계는 기하학적 재구성입니다. ML 모델이 2D 사진을 분석하고 깊이, 공간 구조, 카메라 매개변수——각도, 초점 거리, 장면 내 위치——를 추정합니다. 이 프로세스는 3D 포인트 매핑을 사용하여 각 픽셀의 공간적 위치를 결정합니다.
결과는 시스템이 프레임을 픽셀 그리드가 아닌 가상 공간으로 생각할 수 있게 하는 장면의 내부 3D 모델입니다. 이 표현은 다음 단계의 핵심입니다: 각도 변경, 줌, 또는 프레임을 원래 경계 밖으로 이동하는 것입니다.
3D 이해 없이는 어떤 화면 확장도 평면적이 되어 원본과 생성된 콘텐츠의 전환 부분에서 설득력이 떨어집니다.
원래 화면 밖의 콘텐츠는 어떻게 생성됩니까?
장면이 3D로 재구성된 후, 시스템은 한 번도 촬영되지 않은 화면 부분을 채워야 합니다. 이를 위해 Google은 잠재적 확산 모델을 사용합니다——대규모 이미지 데이터셋에서 시각적 세계의 분포를 학습하고 맥락에 따라 신뢰할 수 있는 콘텐츠를 합성할 수 있는 생성 기술입니다.
확산 모델은 빈 공간을 채우는 것뿐만 아니라 전환이 보이지 않도록 원래 사진의 원근감, 조명, 스타일을 존중해야 합니다. 이것이 바로 3D 포인트 매핑(기하학적 일관성)과 확산(사진 사실적인 콘텐츠)의 조합이 핵심인 이유입니다.
원본 픽셀은 그대로 유지되며, 시스템은 가장자리를 보완하거나 원래 화면 밖의 영역을 드러낼 뿐입니다.
이것이 Google Photos 사용자에게 무엇을 의미합니까?
사용자는 Photoshop이나 유사한 도구에서 수동으로 작업할 필요 없이 대안적인 구도를 얻을 수 있습니다. 하나의 사진에서 여러 변형——더 넓은 화면, 다른 주요 피사체 위치, 변경된 화면 비율——이 생성될 수 있습니다.
실제로 원래 화면이 피사체에 너무 가까울 때, 또는 사용자가 다른 형식(예: 4:3에서 16:9)에 맞게 이미지를 조정하고 싶을 때 유용합니다. 자동 프레임은 Google Photos 앱 내의 기존 편집 인터페이스의 일부로 이용할 수 있습니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.