Was ist der wesentliche Unterschied zur transkriptionsbasierten Suche?

Transkription verliert alles, was kein Sprachinhalt ist — visuelle Elemente, Soundeffekte und Musik werden für die Suche unsichtbar. Nova Multimodal Embeddings behandelt Text, Bilder, Video und Audio als gleichwertige Teile des semantischen Raums.

Wie groß sind die Leistungsgewinne gegenüber dem Baseline?

Recall@5 steigt von 51 auf 90 Prozent (39 PP), Recall@10 von 64 auf 95 Prozent, MRR von 48 auf 90 Prozent, NDCG@10 von 54 auf 88 Prozent. Zwischen 30 und 40 Prozentpunkte Verbesserung über alle Metriken.

Was kostet die Infrastruktur?

AWS nennt S3 Vectors als primären Speicher — bis zu 90 Prozent günstiger als spezialisierte Vektordatenbanken. OpenSearch Service deckt kNN und Metadaten ab, Fargate für die Verarbeitung, Transcribe für Audio und Rekognition für Celebrity-ID.

AWS Nova Multimodal Embeddings für die Videosuche: hybrider Ansatz liefert 90 Prozent Recall statt 51 Prozent

AWS veröffentlichte am 17. April 2026, zusammen mit dem aktuellen Artikel zur Nova-Destillation, den zweiten Schlüsselteil seiner Videosuch-Geschichte — Amazon Nova Multimodal Embeddings. Autoren desselben Teams (Amit Kalawat, Bimal Gajjar, James Wu) dokumentieren detailliert eine Architektur, die grundlegend verändert, wie AWS die semantische Suche in Videoinhalten angeht.

Was anders ist

Eine klassische Videosuch-Pipeline hat eine klare Einschränkung: Alles wird in Text umgewandelt. Audio wird transkribiert, Bilder werden beschrieben, Metadaten werden gelesen — und dann führt ein Text-Embedding-Modell die Suche durch. Das Problem: In diesem Prozess gehen 90 Prozent des ursprünglichen Inhalts verloren — Soundeffekte, Musik, visuelle Komposition, Farben, Bewegung.

Nova Multimodal Embeddings verändert diesen Ansatz. Das System verarbeitet Text, Dokumente, Bilder, Video und Audio gleichzeitig in einen gemeinsamen 1024-dimensionalen Vektorraum. Es gibt keine vorherige Umwandlung in Text — jede Modalität behält ihre eigene Semantik.

Zweiphasige Pipeline

Ingestion-Phase behandelt Video als strukturiertes Signal:

Szenenerkennung über FFmpeg — Video wird an natürlichen Übergängen unterteilt (typischerweise 5–15 Sekunden)
Drei parallele Verarbeitungszweige:
- 1024-dim Embeddings für visuelles + Audiosignal
- Transkription mit ausgerichteten Embeddings auf Satzebene
- Celebrity-ID + Caption-Generierung für zusätzliche Metadaten

Such-Phase verwendet Intent-aware Routing:

Intent-Analyse (Claude Haiku) weist jeder Modalität Gewichtungen (0,0 bis 1,0) zu — visuell, Audio, Transkription, Metadaten
Query-Embeddings werden über drei spezifische Indizes generiert
Finaler Score = w₁ × norm_bm25 + w₂ × norm_visual + w₃ × norm_audio + w₄ × norm_transcription

Hybrider Ansatz: Semantik + Lexik

Die Schlüsselinnovation ist die Kombination aus semantischer und lexikalischer Suche:

Semantische Suche (Embeddings) — hervorragend für konzeptionelle Ähnlichkeit („dramatische Szene”, „nostalgischer Ton”)
Lexikalische Suche (BM25) — hervorragend für genaue Entitäten (Namen, Produktcodes, Standorte)

Ohne die BM25-Schicht wäre die Suche nach bestimmten Personen oder Produktnamen unzuverlässig. Embeddings funktionieren sehr gut bei Abstraktionen, können aber nicht zwischen ähnlichen, aber unterschiedlichen Namen unterscheiden.

Leistung: massiver Sprung

AWS testete das System an 10 langen Videos mit 20 Anfragen und verglich den hybriden Ansatz mit der Baseline-Combined-Mode-Embedding-Lösung:

Metrik	Hybrider Ansatz	Baseline
Recall@5	90 %	51 %
Recall@10	95 %	64 %
MRR	90 %	48 %
NDCG@10	88 %	54 %

Zwischen 30 und 40 Prozentpunkte Verbesserung über alle Metriken. Dies ist kein inkrementeller Sprung — dies ist eine Neudefinition dessen, was mit der Videosuche erreichbar ist.

Infrastrukturseite

AWS hat eine Pipeline konzipiert, die erschwinglich in Enterprise-Größenordnung ist:

S3 Vectors als primärer Speicher für die drei Indexräume — bis zu 90 Prozent günstiger als spezialisierte Vektordatenbanken
OpenSearch Service für kNN-Suche und Metadaten-Indizierung
AWS Fargate für Verarbeitungs-Workloads
Amazon Transcribe für Audio-zu-Text
Amazon Rekognition für Celebrity-ID
Nova 2 Lite zum Generieren von Beschreibungen und Genres

Die Architektur unterstützt die Skalierung auf massive Inhaltsbibliotheken durch effiziente Vektorspeicherung und selektives Query-Routing — wenn der Intent-Router feststellt, dass Audio für eine Anfrage nicht relevant ist (Gewichtung unter 0,05), wird der Audio-Index gar nicht durchsucht.

Von AWS genannte Anwendungsfälle

Sportproduzenten suchen nach Highlight-Momenten in Archiven
Filmstudios suchen Szenen mit bestimmten Schauspielern
Nachrichtenorganisationen suchen Material nach Stimmung, Ort oder Ereignis

In allen Fällen hat der frühere transkriptionsbasierte Ansatz visuelle und Audioinformationen übersehen, die oft entscheidend für das Auffinden der richtigen Szene sind.

Weiterer Kontext

Zusammen mit dem Nova Model Distillation-Artikel (siehe Schwesterbeitrag) hat AWS an einem einzigen Tag eine vollständige Videosuch-Pipeline veröffentlicht: Embedding-Architektur plus destilliertes Routing. Beide Artikel stammen vom selben Autorenteam und bilden eine vollständige Enterprise-Lösung für Organisationen, die große Videobibliotheken verwalten.

Für AWS ist dies ein strategischer Schachzug — Amazon hatte lange Schwierigkeiten, sich als KI-Infrastrukturführer gegenüber Google und Azure zu positionieren. Die Nova-Modellfamilie plus multimodale Embeddings plus Destillation plus S3 Vectors bildet einen konkreten, messbaren Stack mit dokumentierten Einsparungen.