AWS: semantičko pretraživanje zračnih snimaka uz Amazon Nova Multimodal Embeddings (Vexcel)
Vexcel i AWS demonstrirali su semantičko pretraživanje aerofotografija pomoću Amazon Nova Multimodal Embeddings. Nakon testiranja ~100 konfiguracija, LLM-generirani opisi poboljšali su F1 rezultat za bazene za 11% i za ceste za 13%, što je preraslo u komercijalni proizvod Vexcel Intelligence dostupan u 45+ zemalja.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Kako Amazon Nova pronalazi bazene na aerial fotografijama?
Amazon Nova Multimodal Embeddings — model koji tekst i slike pretvara u zajednički vektorski prostor — postigao je F1=0,621 za detekciju bazena i F1=0,555 za ceste na aerofotografijama. Vexcel, vodeći pružatelj aerial geodetskih podataka, testirao je oko 100 različitih konfiguracija modela i parametara prije nego što je Amazon Nova izabran kao osnova sustava.
Multimodal embeddings su numerički vektori koji istovremeno kodiraju vizualni i tekstualni sadržaj u jedinstven prostor, što znači da korisnik može pretraživati milijune aerial snimaka jednostavnim tekstualnim upitom — bez ručnog označavanja svake slike.
LLM opisi kao ključni faktor
Najveći pojedinačni dobitak u cijelom projektu donijeli su automatski opisi generirani velikim jezičnim modelom (LLM captions): +11% F1 za bazene i +13% za ceste u usporedbi s radom bez tekstualnih opisa. Taj nalaz potvrđuje da kombinacija teksta i vizualnog sadržaja nadmašuje čisto vizualne pristupe pretraživanju satelitskih i aerial snimaka.
Svaka lokacija u Vexcelovoj bazi podataka pokrivena je s 7 perspektiva: ortofoto odozgo, četiri kosa snimanja pod različitim kutovima, digitalni model površine (DSM) i digitalni model terena (DTM).
Komercijalni rezultat i tehnički stack
Istraživanje je izravno evoluiralo u komercijalni proizvod Vexcel Intelligence, koji je u preview fazi dostupan u više od 45 zemalja. Pozadinska infrastruktura oslanja se na Amazon Bedrock za modele, OpenSearch Serverless za vektorsko pretraživanje i Amazon S3 za pohranu imagery podataka.
Za razliku od klasičnih pristupa koji zahtijevaju ručno označene skupove podataka za svaku kategoriju objekata, semantičko pretraživanje temeljeno na multimodal embeddings omogućuje upite poput „industrijska zona uz rijeku” bez ikakve prethodne anotacije.
Česta pitanja
- Što su multimodal embeddings i zašto su korisni za pretraživanje slika?
- Multimodal embeddings su numerički vektori koji kodiraju i tekstualni i vizualni sadržaj u jedinstven zajednički prostor, omogućujući pretraživanje slika tekstualnim upitima bez ručnog označavanja svake fotografije.
- Koliko je poboljšanje donijelo dodavanje LLM-generiranih opisa aerial fotografijama?
- LLM-generirani opisi donijeli su +11% F1 za detekciju bazena i +13% za ceste — najveći pojedinačni dobitak u cijelom testiranju od ~100 konfiguracija.