🤖 24 AI
🟡 🤖 Modelle Samstag, 18. April 2026 · 4 Min. Lesezeit

AWS Nova Multimodal Embeddings für die Videosuche: hybrider Ansatz liefert 90 Prozent Recall statt 51 Prozent

Warum es wichtig ist

AWS Nova Multimodal Embeddings ist eine neue Architektur, die visuellen, Audio- und Textinhalt eines Videos gleichzeitig in einen gemeinsamen 1024-dimensionalen Vektorraum verarbeitet, ohne in Text umzuwandeln. Die Kombination von semantischem Embedding mit BM25-lexikalischer Suche ergibt 90 Prozent Recall@5 gegenüber 51 Prozent bei Baseline-Combined-Mode-Embeddings — ein Sprung von 30 bis 40 Prozentpunkten über alle Metriken.

AWS veröffentlichte am 17. April 2026, zusammen mit dem aktuellen Artikel zur Nova-Destillation, den zweiten Schlüsselteil seiner Videosuch-Geschichte — Amazon Nova Multimodal Embeddings. Autoren desselben Teams (Amit Kalawat, Bimal Gajjar, James Wu) dokumentieren detailliert eine Architektur, die grundlegend verändert, wie AWS die semantische Suche in Videoinhalten angeht.

Was anders ist

Eine klassische Videosuch-Pipeline hat eine klare Einschränkung: Alles wird in Text umgewandelt. Audio wird transkribiert, Bilder werden beschrieben, Metadaten werden gelesen — und dann führt ein Text-Embedding-Modell die Suche durch. Das Problem: In diesem Prozess gehen 90 Prozent des ursprünglichen Inhalts verloren — Soundeffekte, Musik, visuelle Komposition, Farben, Bewegung.

Nova Multimodal Embeddings verändert diesen Ansatz. Das System verarbeitet Text, Dokumente, Bilder, Video und Audio gleichzeitig in einen gemeinsamen 1024-dimensionalen Vektorraum. Es gibt keine vorherige Umwandlung in Text — jede Modalität behält ihre eigene Semantik.

Zweiphasige Pipeline

Ingestion-Phase behandelt Video als strukturiertes Signal:

  1. Szenenerkennung über FFmpeg — Video wird an natürlichen Übergängen unterteilt (typischerweise 5–15 Sekunden)
  2. Drei parallele Verarbeitungszweige:
    • 1024-dim Embeddings für visuelles + Audiosignal
    • Transkription mit ausgerichteten Embeddings auf Satzebene
    • Celebrity-ID + Caption-Generierung für zusätzliche Metadaten

Such-Phase verwendet Intent-aware Routing:

  1. Intent-Analyse (Claude Haiku) weist jeder Modalität Gewichtungen (0,0 bis 1,0) zu — visuell, Audio, Transkription, Metadaten
  2. Query-Embeddings werden über drei spezifische Indizes generiert
  3. Finaler Score = w₁ × norm_bm25 + w₂ × norm_visual + w₃ × norm_audio + w₄ × norm_transcription

Hybrider Ansatz: Semantik + Lexik

Die Schlüsselinnovation ist die Kombination aus semantischer und lexikalischer Suche:

  • Semantische Suche (Embeddings) — hervorragend für konzeptionelle Ähnlichkeit („dramatische Szene”, „nostalgischer Ton”)
  • Lexikalische Suche (BM25) — hervorragend für genaue Entitäten (Namen, Produktcodes, Standorte)

Ohne die BM25-Schicht wäre die Suche nach bestimmten Personen oder Produktnamen unzuverlässig. Embeddings funktionieren sehr gut bei Abstraktionen, können aber nicht zwischen ähnlichen, aber unterschiedlichen Namen unterscheiden.

Leistung: massiver Sprung

AWS testete das System an 10 langen Videos mit 20 Anfragen und verglich den hybriden Ansatz mit der Baseline-Combined-Mode-Embedding-Lösung:

MetrikHybrider AnsatzBaseline
Recall@590 %51 %
Recall@1095 %64 %
MRR90 %48 %
NDCG@1088 %54 %

Zwischen 30 und 40 Prozentpunkte Verbesserung über alle Metriken. Dies ist kein inkrementeller Sprung — dies ist eine Neudefinition dessen, was mit der Videosuche erreichbar ist.

Infrastrukturseite

AWS hat eine Pipeline konzipiert, die erschwinglich in Enterprise-Größenordnung ist:

  • S3 Vectors als primärer Speicher für die drei Indexräume — bis zu 90 Prozent günstiger als spezialisierte Vektordatenbanken
  • OpenSearch Service für kNN-Suche und Metadaten-Indizierung
  • AWS Fargate für Verarbeitungs-Workloads
  • Amazon Transcribe für Audio-zu-Text
  • Amazon Rekognition für Celebrity-ID
  • Nova 2 Lite zum Generieren von Beschreibungen und Genres

Die Architektur unterstützt die Skalierung auf massive Inhaltsbibliotheken durch effiziente Vektorspeicherung und selektives Query-Routing — wenn der Intent-Router feststellt, dass Audio für eine Anfrage nicht relevant ist (Gewichtung unter 0,05), wird der Audio-Index gar nicht durchsucht.

Von AWS genannte Anwendungsfälle

  • Sportproduzenten suchen nach Highlight-Momenten in Archiven
  • Filmstudios suchen Szenen mit bestimmten Schauspielern
  • Nachrichtenorganisationen suchen Material nach Stimmung, Ort oder Ereignis

In allen Fällen hat der frühere transkriptionsbasierte Ansatz visuelle und Audioinformationen übersehen, die oft entscheidend für das Auffinden der richtigen Szene sind.

Weiterer Kontext

Zusammen mit dem Nova Model Distillation-Artikel (siehe Schwesterbeitrag) hat AWS an einem einzigen Tag eine vollständige Videosuch-Pipeline veröffentlicht: Embedding-Architektur plus destilliertes Routing. Beide Artikel stammen vom selben Autorenteam und bilden eine vollständige Enterprise-Lösung für Organisationen, die große Videobibliotheken verwalten.

Für AWS ist dies ein strategischer Schachzug — Amazon hatte lange Schwierigkeiten, sich als KI-Infrastrukturführer gegenüber Google und Azure zu positionieren. Die Nova-Modellfamilie plus multimodale Embeddings plus Destillation plus S3 Vectors bildet einen konkreten, messbaren Stack mit dokumentierten Einsparungen.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.