Google Photos自动框架利用3D模型和扩散技术扩展画面
为什么重要
Google Photos新增了自动框架功能,该功能将2D照片解读为3D场景,评估几何结构和相机参数,然后使用潜在扩散模型生成原始画面之外的内容,从而实现替代构图。
Google Research推出了自动框架——Google Photos应用中自动为现有照片提供替代构图的新功能。在简单按钮背后隐藏着3D场景估算与生成模型的组合技术。
自动框架如何将2D照片转换为3D场景?
处理流水线的第一步是几何重建。机器学习模型分析2D照片,从中估算深度、空间结构和相机参数——角度、焦距和场景中的位置。此过程使用3D点映射为每个像素确定其空间位置。
结果是场景的内部3D模型,使系统可以将画面视为虚拟空间而非像素网格来思考。这种表示对于下一步至关重要:改变角度、缩放或将画面移动到原始边界之外。
没有3D理解,任何画面扩展都会显得平面化,在原始内容和生成内容的过渡处令人信服度低。
如何生成原始画面之外的内容?
场景在3D中重建后,系统必须填充从未被拍摄过的画面区域。为此,Google使用潜在扩散模型——这种生成技术从大型图像数据集中学习视觉世界的分布,并能根据上下文合成可信内容。
扩散模型不仅填充空白,还必须尊重原始照片的视角、光线和风格,以使过渡不可见。这正是3D点映射(几何一致性)和扩散(逼真内容)组合的关键所在。
原始像素保持不变;系统只是补充边缘或揭示原始画面之外的区域。
这对Google Photos用户意味着什么?
用户无需在Photoshop或类似工具中手动操作即可获得替代构图。一张照片可以生成多个变体——更宽的画面、主体位置不同、纵横比改变。
实际上,当原始画面离主体太近,或用户想为不同格式(例如从4:3到16:9)调整图像时,该功能非常实用。自动框架可在Google Photos应用中作为现有编辑界面的一部分使用。
本文由人工智能基于一手来源生成。