AWS Nova: aerial snimci F1=0,621 (+13%)

Vexcel i AWS demonstrirali su semantičko pretraživanje aerofotografija pomoću Amazon Nova Multimodal Embeddings. Nakon testiranja ~100 konfiguracija, LLM-generirani opisi poboljšali su F1 rezultat za bazene za 11% i za ceste za 13%, što je preraslo u komercijalni proizvod Vexcel Intelligence dostupan u 45+ zemalja.

Kako Amazon Nova pronalazi bazene na aerial fotografijama?

Amazon Nova Multimodal Embeddings — model koji tekst i slike pretvara u zajednički vektorski prostor — postigao je F1=0,621 za detekciju bazena i F1=0,555 za ceste na aerofotografijama. Vexcel, vodeći pružatelj aerial geodetskih podataka, testirao je oko 100 različitih konfiguracija modela i parametara prije nego što je Amazon Nova izabran kao osnova sustava.

Multimodal embeddings su numerički vektori koji istovremeno kodiraju vizualni i tekstualni sadržaj u jedinstven prostor, što znači da korisnik može pretraživati milijune aerial snimaka jednostavnim tekstualnim upitom — bez ručnog označavanja svake slike.

LLM opisi kao ključni faktor

Najveći pojedinačni dobitak u cijelom projektu donijeli su automatski opisi generirani velikim jezičnim modelom (LLM captions): +11% F1 za bazene i +13% za ceste u usporedbi s radom bez tekstualnih opisa. Taj nalaz potvrđuje da kombinacija teksta i vizualnog sadržaja nadmašuje čisto vizualne pristupe pretraživanju satelitskih i aerial snimaka.

Svaka lokacija u Vexcelovoj bazi podataka pokrivena je s 7 perspektiva: ortofoto odozgo, četiri kosa snimanja pod različitim kutovima, digitalni model površine (DSM) i digitalni model terena (DTM).

Komercijalni rezultat i tehnički stack

Istraživanje je izravno evoluiralo u komercijalni proizvod Vexcel Intelligence, koji je u preview fazi dostupan u više od 45 zemalja. Pozadinska infrastruktura oslanja se na Amazon Bedrock za modele, OpenSearch Serverless za vektorsko pretraživanje i Amazon S3 za pohranu imagery podataka.

Za razliku od klasičnih pristupa koji zahtijevaju ručno označene skupove podataka za svaku kategoriju objekata, semantičko pretraživanje temeljeno na multimodal embeddings omogućuje upite poput „industrijska zona uz rijeku” bez ikakve prethodne anotacije.

Česta pitanja

Što su multimodal embeddings i zašto su korisni za pretraživanje slika?

Multimodal embeddings su numerički vektori koji kodiraju i tekstualni i vizualni sadržaj u jedinstven zajednički prostor, omogućujući pretraživanje slika tekstualnim upitima bez ručnog označavanja svake fotografije.

Koliko je poboljšanje donijelo dodavanje LLM-generiranih opisa aerial fotografijama?

LLM-generirani opisi donijeli su +11% F1 za detekciju bazena i +13% za ceste — najveći pojedinačni dobitak u cijelom testiranju od ~100 konfiguracija.

AWS: semantičko pretraživanje zračnih snimaka uz Amazon Nova Multimodal Embeddings (Vexcel)

Kako Amazon Nova pronalazi bazene na aerial fotografijama?

LLM opisi kao ključni faktor

Komercijalni rezultat i tehnički stack

Česta pitanja

Izvori

Povezane vijesti