Auto Frame機能は何をしますか？

Auto Frameは、フレームを拡張して元々撮影されていなかったコンテンツを生成することで、写真の別の構図を自動的に提供します。

元の写真の外側の部分はどのように埋められますか？

システムは潜在拡散モデルを使用して、推定された3Dシーンに基づいてカメラの視野外にあった領域の信頼できるコンテンツを生成します。

Auto FrameはGoogle Photosアプリの写真編集ツールの一部として利用できます。

Google ResearchはAuto Frameを発表しました——Google Photosアプリで既存の写真の別の構図を自動的に提供する新機能です。シンプルなボタンの裏には、3Dシーン推定と生成モデルの組み合わせが隠れています。

パイプラインの最初のステップは幾何学的再構成です。MLモデルが2D写真を分析し、深度、空間構造、カメラパラメータ——角度、焦点距離、シーン内の位置——を推定します。このプロセスは3Dポイントマッピングを使用して各ピクセルの空間的位置を決定します。

結果は、システムがフレームをピクセルグリッドではなく仮想空間として考えられるようにする、シーンの内部3Dモデルです。この表現は次のステップの鍵となります：角度の変更、ズーム、またはフレームを元の境界の外に移動することです。

3D理解なしでは、フレームの拡張は平面的になり、元のコンテンツと生成されたコンテンツの境界で不自然になります。

シーンが3Dで再構成された後、システムは一度も撮影されなかったフレーム部分を埋める必要があります。そのためにGoogleは潜在拡散モデルを使用します——大規模な画像データセットから視覚世界の分布を学習し、コンテキストに基づいて信頼できるコンテンツを合成できる生成技術です。

拡散モデルは空白を埋めるだけでなく、元の写真の視点、光、スタイルを尊重してトランジションが見えないようにする必要があります。これが3Dポイントマッピング（幾何学的一貫性）と拡散（フォトリアリスティックなコンテンツ）の組み合わせが鍵である理由です。

元のピクセルはそのままで；システムはエッジを補完したり元のフレーム外の領域を明らかにするだけです。

ユーザーはPhotoshopや類似のツールで手動で操作することなく、別の構図を取得できます。1枚の写真から複数のバリエーション——より広いフレーム、メインモチーフの別の位置、変更されたアスペクト——が生成されます。

実際には、元のフレームが被写体に近すぎる場合、またはユーザーが別のフォーマット（たとえば4:3から16:9）用に画像を調整したい場合に便利です。Auto FrameはGoogle Photosアプリ内の既存の編集インターフェースの一部として利用できます。