Google Photos Auto Frame koristi 3D modele i difuziju za proširenje kadra
Google Photos dobio je značajku Auto Frame koja 2D fotografiju interpretira kao 3D scenu, procjenjuje geometriju i parametre kamere, a zatim latentnim difuzijskim modelima generira sadržaj izvan originalnog kadra za alternativne kompozicije.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Google Research predstavio je Auto Frame — novu značajku u aplikaciji Google Photos koja automatski nudi alternativne kompozicije postojećih fotografija. Iza jednostavnog gumba krije se kombinacija procjene 3D scene i generativnih modela.
Kako Auto Frame pretvara 2D fotografiju u 3D scenu?
Prvi korak pipelinea je geometrijska rekonstrukcija. ML modeli analiziraju 2D fotografiju i iz nje procjenjuju dubinu, prostornu strukturu i parametre kamere — kut, žarišnu duljinu i položaj u sceni. Ovaj proces koristi 3D point mapping kako bi za svaki piksel odredio njegovu prostornu poziciju.
Rezultat je unutarnji 3D model scene koji sustavu omogućuje razmišljanje o kadru kao o virtualnom prostoru, a ne samo mreži piksela. Takva reprezentacija ključna je za korak koji slijedi: mijenjanje kuta, zumiranja ili pomicanje kadra izvan originalnih granica.
Bez 3D razumijevanja, svako proširivanje kadra bilo bi plošno i neuvjerljivo na prijelazima između originalnog i generiranog sadržaja.
Kako se generira sadržaj izvan originalnog kadra?
Kada je scena rekonstruirana u 3D, sustav mora popuniti dijelove kadra koji nikada nisu bili snimljeni. Za to Google koristi latentne difuzijske modele — generativnu tehnologiju koja uči distribuciju vizualnog svijeta iz velikih skupova slika i može sintetizirati vjerodostojan sadržaj na temelju konteksta.
Difuzijski model ne samo da puni prazninu, nego mora poštovati perspektivu, osvjetljenje i stil originalne fotografije kako prijelaz ne bi bio vidljiv. Upravo zato je ključna kombinacija 3D point mappinga (za geometrijsku konzistentnost) i difuzije (za foto-realističan sadržaj).
Originalni piksli ostaju netaknuti; sustav samo dopunjuje rubove ili otkriva područja izvan prvotnog kadra.
Što ovo znači za korisnike Google Photosa?
Korisnici dobivaju alternativne kompozicije iste fotografije bez potrebe za ručnom intervencijom u Photoshopu ili sličnom alatu. Jedna snimka može rezultirati više varijanti — širi kadar, drugačiji položaj glavnog motiva, promijenjen aspekt.
Praktično, značajka je korisna kada je originalni kadar preblizu subjektu ili kada korisnik želi prilagoditi sliku za drugi format (primjerice iz 4:3 u 16:9). Auto Frame je dostupan unutar aplikacije Google Photos kao dio postojećeg uređivačkog sučelja.
Česta pitanja
- Što radi Auto Frame značajka?
- Auto Frame automatski nudi alternativne kompozicije fotografije tako što proširuje kadar i generira sadržaj koji izvorno nije bio snimljen.
- Kako značajka popunjava dijelove izvan originalne fotografije?
- Sustav koristi latentne difuzijske modele koji, na temelju procijenjene 3D scene, generiraju vjerodostojan sadržaj za područja koja su bila izvan vidnog polja kamere.
- Gdje je značajka dostupna?
- Auto Frame je dostupan unutar aplikacije Google Photos kao dio alata za uređivanje fotografija.
Povezane vijesti
arXiv:2605.22763: AI agent s Lean verifikacijom rješava 9 otvorenih Erdősovih problema i 44 OEIS konjekture
arXiv:2605.06540: Frontier modeli padaju ispod praga raznolikosti u kreaciji ideja
arXiv:2604.21508 BioMiner: multimodalni AI vadi protein-ligand bioaktivnost iz literature, 5,59× brže od ručnog rada