Google PhotosのAuto Frame、3Dモデルと拡散技術でフレームを拡張
なぜ重要か
Google PhotosがAuto Frame機能を追加しました。2D写真を3Dシーンとして解釈し、幾何学とカメラパラメータを推定した後、潜在拡散モデルを使用して元のフレーム外のコンテンツを生成し、別の構図を実現します。
Google ResearchはAuto Frameを発表しました——Google Photosアプリで既存の写真の別の構図を自動的に提供する新機能です。シンプルなボタンの裏には、3Dシーン推定と生成モデルの組み合わせが隠れています。
Auto Frameはどのように2D写真を3Dシーンに変換しますか?
パイプラインの最初のステップは幾何学的再構成です。MLモデルが2D写真を分析し、深度、空間構造、カメラパラメータ——角度、焦点距離、シーン内の位置——を推定します。このプロセスは3Dポイントマッピングを使用して各ピクセルの空間的位置を決定します。
結果は、システムがフレームをピクセルグリッドではなく仮想空間として考えられるようにする、シーンの内部3Dモデルです。この表現は次のステップの鍵となります:角度の変更、ズーム、またはフレームを元の境界の外に移動することです。
3D理解なしでは、フレームの拡張は平面的になり、元のコンテンツと生成されたコンテンツの境界で不自然になります。
元のフレーム外のコンテンツはどのように生成されますか?
シーンが3Dで再構成された後、システムは一度も撮影されなかったフレーム部分を埋める必要があります。そのためにGoogleは潜在拡散モデルを使用します——大規模な画像データセットから視覚世界の分布を学習し、コンテキストに基づいて信頼できるコンテンツを合成できる生成技術です。
拡散モデルは空白を埋めるだけでなく、元の写真の視点、光、スタイルを尊重してトランジションが見えないようにする必要があります。これが3Dポイントマッピング(幾何学的一貫性)と拡散(フォトリアリスティックなコンテンツ)の組み合わせが鍵である理由です。
元のピクセルはそのままで;システムはエッジを補完したり元のフレーム外の領域を明らかにするだけです。
これはGoogle Photosのユーザーにとって何を意味しますか?
ユーザーはPhotoshopや類似のツールで手動で操作することなく、別の構図を取得できます。1枚の写真から複数のバリエーション——より広いフレーム、メインモチーフの別の位置、変更されたアスペクト——が生成されます。
実際には、元のフレームが被写体に近すぎる場合、またはユーザーが別のフォーマット(たとえば4:3から16:9)用に画像を調整したい場合に便利です。Auto FrameはGoogle Photosアプリ内の既存の編集インターフェースの一部として利用できます。
この記事はAIにより一次情報源から生成されました。