🟢 🏥 In der Praxis Veröffentlicht: · 2 Min. Lesezeit ·

AWS: Semantische Suche in Luftaufnahmen mit Amazon Nova Multimodal Embeddings (Vexcel)

Editorial illustration: aerial photograph grid with semantic search query overlay and highlighted detected pools and roads

Vexcel und AWS demonstrierten die semantische Suche in Luftbildern mit Amazon Nova Multimodal Embeddings. Nach Tests mit ~100 Konfigurationen verbesserten KI-generierte Beschreibungen den F1-Wert für Schwimmbäder um 11 % und für Straßen um 13 %, woraus das kommerzielle Produkt Vexcel Intelligence in 45+ Ländern entstand.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Wie findet Amazon Nova Schwimmbäder in Luftaufnahmen?

Amazon Nova Multimodal Embeddings — ein Modell, das Text und Bilder in einen gemeinsamen Vektorraum überführt — erzielte F1=0,621 für die Erkennung von Schwimmbädern und F1=0,555 für Straßen in Luftaufnahmen. Vexcel, ein führender Anbieter von Luftvermessungsdaten, testete rund 100 verschiedene Modell- und Parameterkonfigurationen, bevor Amazon Nova als Systemgrundlage ausgewählt wurde.

Multimodale Embeddings sind numerische Vektoren, die visuellen und textlichen Inhalt gleichzeitig in einem einheitlichen Raum kodieren, sodass Nutzer Millionen von Luftaufnahmen mit einer einfachen Textabfrage durchsuchen können — ohne manuelle Kennzeichnung jedes Bildes.

KI-Beschreibungen als Schlüsselfaktor

Den größten Einzelgewinn im gesamten Projekt brachten automatisch von einem großen Sprachmodell generierte Beschreibungen (KI-Bildunterschriften): +11 % F1 für Schwimmbäder und +13 % für Straßen im Vergleich zur Arbeit ohne Textbeschreibungen. Dieser Befund bestätigt, dass die Kombination aus Text und visuellem Inhalt rein visuelle Suchmethoden für Satelliten- und Luftaufnahmen übertrifft.

Jeder Standort in Vexcels Datenbank ist mit 7 Perspektiven abgedeckt: Orthofoto von oben, vier Schrägaufnahmen aus verschiedenen Winkeln, ein digitales Oberflächenmodell (DSM) und ein digitales Geländemodell (DTM).

Kommerzielles Ergebnis und technischer Stack

Die Forschung entwickelte sich direkt zu einem kommerziellen Produkt: Vexcel Intelligence ist in der Preview-Phase in mehr als 45 Ländern verfügbar. Die Backend-Infrastruktur stützt sich auf Amazon Bedrock für Modelle, OpenSearch Serverless für Vektorsuche und Amazon S3 für die Bildspeicherung.

Im Gegensatz zu klassischen Ansätzen, die manuell annotierte Datensätze für jede Objektkategorie erfordern, ermöglicht die semantische Suche auf Basis multimodaler Embeddings Abfragen wie „Industriegebiet an einem Fluss” ohne jede Vorannotation.

Häufig gestellte Fragen

Was sind multimodale Embeddings und warum sind sie für die Bildsuche nützlich?
Multimodale Embeddings sind numerische Vektoren, die sowohl Text- als auch Bildinhalte in einem gemeinsamen Raum kodieren und so die Suche nach Bildern per Textabfrage ermöglichen — ohne manuelle Kennzeichnung jedes Fotos.
Wie groß war der Gewinn durch KI-generierte Beschreibungen von Luftaufnahmen?
KI-generierte Beschreibungen brachten +11 % F1 für Schwimmbäder und +13 % für Straßen — der größte Einzelgewinn im gesamten Test mit ~100 Konfigurationen.