AWS: Semantische Suche in Luftaufnahmen mit Amazon Nova Multimodal Embeddings (Vexcel)
Vexcel und AWS demonstrierten die semantische Suche in Luftbildern mit Amazon Nova Multimodal Embeddings. Nach Tests mit ~100 Konfigurationen verbesserten KI-generierte Beschreibungen den F1-Wert für Schwimmbäder um 11 % und für Straßen um 13 %, woraus das kommerzielle Produkt Vexcel Intelligence in 45+ Ländern entstand.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Wie findet Amazon Nova Schwimmbäder in Luftaufnahmen?
Amazon Nova Multimodal Embeddings — ein Modell, das Text und Bilder in einen gemeinsamen Vektorraum überführt — erzielte F1=0,621 für die Erkennung von Schwimmbädern und F1=0,555 für Straßen in Luftaufnahmen. Vexcel, ein führender Anbieter von Luftvermessungsdaten, testete rund 100 verschiedene Modell- und Parameterkonfigurationen, bevor Amazon Nova als Systemgrundlage ausgewählt wurde.
Multimodale Embeddings sind numerische Vektoren, die visuellen und textlichen Inhalt gleichzeitig in einem einheitlichen Raum kodieren, sodass Nutzer Millionen von Luftaufnahmen mit einer einfachen Textabfrage durchsuchen können — ohne manuelle Kennzeichnung jedes Bildes.
KI-Beschreibungen als Schlüsselfaktor
Den größten Einzelgewinn im gesamten Projekt brachten automatisch von einem großen Sprachmodell generierte Beschreibungen (KI-Bildunterschriften): +11 % F1 für Schwimmbäder und +13 % für Straßen im Vergleich zur Arbeit ohne Textbeschreibungen. Dieser Befund bestätigt, dass die Kombination aus Text und visuellem Inhalt rein visuelle Suchmethoden für Satelliten- und Luftaufnahmen übertrifft.
Jeder Standort in Vexcels Datenbank ist mit 7 Perspektiven abgedeckt: Orthofoto von oben, vier Schrägaufnahmen aus verschiedenen Winkeln, ein digitales Oberflächenmodell (DSM) und ein digitales Geländemodell (DTM).
Kommerzielles Ergebnis und technischer Stack
Die Forschung entwickelte sich direkt zu einem kommerziellen Produkt: Vexcel Intelligence ist in der Preview-Phase in mehr als 45 Ländern verfügbar. Die Backend-Infrastruktur stützt sich auf Amazon Bedrock für Modelle, OpenSearch Serverless für Vektorsuche und Amazon S3 für die Bildspeicherung.
Im Gegensatz zu klassischen Ansätzen, die manuell annotierte Datensätze für jede Objektkategorie erfordern, ermöglicht die semantische Suche auf Basis multimodaler Embeddings Abfragen wie „Industriegebiet an einem Fluss” ohne jede Vorannotation.
Häufig gestellte Fragen
- Was sind multimodale Embeddings und warum sind sie für die Bildsuche nützlich?
- Multimodale Embeddings sind numerische Vektoren, die sowohl Text- als auch Bildinhalte in einem gemeinsamen Raum kodieren und so die Suche nach Bildern per Textabfrage ermöglichen — ohne manuelle Kennzeichnung jedes Fotos.
- Wie groß war der Gewinn durch KI-generierte Beschreibungen von Luftaufnahmen?
- KI-generierte Beschreibungen brachten +11 % F1 für Schwimmbäder und +13 % für Straßen — der größte Einzelgewinn im gesamten Test mit ~100 Konfigurationen.
Verwandte Nachrichten
CNCF: Warum klassische Observability für agentische KI-Systeme und LLMs nicht funktioniert
arXiv:2606.20474: UltraQuant reduziert KV-Cache-Latenz um das 3,47-Fache mit 4-Bit-Präzision
Anthropic: Claude Code v2.1.183 blockiert destruktive Git- und Infrastrukturbefehle im Auto-Modus