AWS Nova Multimodal Embeddings für die Videosuche: hybrider Ansatz liefert 90 Prozent Recall statt 51 Prozent
Warum es wichtig ist
AWS Nova Multimodal Embeddings ist eine neue Architektur, die visuellen, Audio- und Textinhalt eines Videos gleichzeitig in einen gemeinsamen 1024-dimensionalen Vektorraum verarbeitet, ohne in Text umzuwandeln. Die Kombination von semantischem Embedding mit BM25-lexikalischer Suche ergibt 90 Prozent Recall@5 gegenüber 51 Prozent bei Baseline-Combined-Mode-Embeddings — ein Sprung von 30 bis 40 Prozentpunkten über alle Metriken.
AWS veröffentlichte am 17. April 2026, zusammen mit dem aktuellen Artikel zur Nova-Destillation, den zweiten Schlüsselteil seiner Videosuch-Geschichte — Amazon Nova Multimodal Embeddings. Autoren desselben Teams (Amit Kalawat, Bimal Gajjar, James Wu) dokumentieren detailliert eine Architektur, die grundlegend verändert, wie AWS die semantische Suche in Videoinhalten angeht.
Was anders ist
Eine klassische Videosuch-Pipeline hat eine klare Einschränkung: Alles wird in Text umgewandelt. Audio wird transkribiert, Bilder werden beschrieben, Metadaten werden gelesen — und dann führt ein Text-Embedding-Modell die Suche durch. Das Problem: In diesem Prozess gehen 90 Prozent des ursprünglichen Inhalts verloren — Soundeffekte, Musik, visuelle Komposition, Farben, Bewegung.
Nova Multimodal Embeddings verändert diesen Ansatz. Das System verarbeitet Text, Dokumente, Bilder, Video und Audio gleichzeitig in einen gemeinsamen 1024-dimensionalen Vektorraum. Es gibt keine vorherige Umwandlung in Text — jede Modalität behält ihre eigene Semantik.
Zweiphasige Pipeline
Ingestion-Phase behandelt Video als strukturiertes Signal:
- Szenenerkennung über FFmpeg — Video wird an natürlichen Übergängen unterteilt (typischerweise 5–15 Sekunden)
- Drei parallele Verarbeitungszweige:
- 1024-dim Embeddings für visuelles + Audiosignal
- Transkription mit ausgerichteten Embeddings auf Satzebene
- Celebrity-ID + Caption-Generierung für zusätzliche Metadaten
Such-Phase verwendet Intent-aware Routing:
- Intent-Analyse (Claude Haiku) weist jeder Modalität Gewichtungen (0,0 bis 1,0) zu — visuell, Audio, Transkription, Metadaten
- Query-Embeddings werden über drei spezifische Indizes generiert
- Finaler Score = w₁ × norm_bm25 + w₂ × norm_visual + w₃ × norm_audio + w₄ × norm_transcription
Hybrider Ansatz: Semantik + Lexik
Die Schlüsselinnovation ist die Kombination aus semantischer und lexikalischer Suche:
- Semantische Suche (Embeddings) — hervorragend für konzeptionelle Ähnlichkeit („dramatische Szene”, „nostalgischer Ton”)
- Lexikalische Suche (BM25) — hervorragend für genaue Entitäten (Namen, Produktcodes, Standorte)
Ohne die BM25-Schicht wäre die Suche nach bestimmten Personen oder Produktnamen unzuverlässig. Embeddings funktionieren sehr gut bei Abstraktionen, können aber nicht zwischen ähnlichen, aber unterschiedlichen Namen unterscheiden.
Leistung: massiver Sprung
AWS testete das System an 10 langen Videos mit 20 Anfragen und verglich den hybriden Ansatz mit der Baseline-Combined-Mode-Embedding-Lösung:
| Metrik | Hybrider Ansatz | Baseline |
|---|---|---|
| Recall@5 | 90 % | 51 % |
| Recall@10 | 95 % | 64 % |
| MRR | 90 % | 48 % |
| NDCG@10 | 88 % | 54 % |
Zwischen 30 und 40 Prozentpunkte Verbesserung über alle Metriken. Dies ist kein inkrementeller Sprung — dies ist eine Neudefinition dessen, was mit der Videosuche erreichbar ist.
Infrastrukturseite
AWS hat eine Pipeline konzipiert, die erschwinglich in Enterprise-Größenordnung ist:
- S3 Vectors als primärer Speicher für die drei Indexräume — bis zu 90 Prozent günstiger als spezialisierte Vektordatenbanken
- OpenSearch Service für kNN-Suche und Metadaten-Indizierung
- AWS Fargate für Verarbeitungs-Workloads
- Amazon Transcribe für Audio-zu-Text
- Amazon Rekognition für Celebrity-ID
- Nova 2 Lite zum Generieren von Beschreibungen und Genres
Die Architektur unterstützt die Skalierung auf massive Inhaltsbibliotheken durch effiziente Vektorspeicherung und selektives Query-Routing — wenn der Intent-Router feststellt, dass Audio für eine Anfrage nicht relevant ist (Gewichtung unter 0,05), wird der Audio-Index gar nicht durchsucht.
Von AWS genannte Anwendungsfälle
- Sportproduzenten suchen nach Highlight-Momenten in Archiven
- Filmstudios suchen Szenen mit bestimmten Schauspielern
- Nachrichtenorganisationen suchen Material nach Stimmung, Ort oder Ereignis
In allen Fällen hat der frühere transkriptionsbasierte Ansatz visuelle und Audioinformationen übersehen, die oft entscheidend für das Auffinden der richtigen Szene sind.
Weiterer Kontext
Zusammen mit dem Nova Model Distillation-Artikel (siehe Schwesterbeitrag) hat AWS an einem einzigen Tag eine vollständige Videosuch-Pipeline veröffentlicht: Embedding-Architektur plus destilliertes Routing. Beide Artikel stammen vom selben Autorenteam und bilden eine vollständige Enterprise-Lösung für Organisationen, die große Videobibliotheken verwalten.
Für AWS ist dies ein strategischer Schachzug — Amazon hatte lange Schwierigkeiten, sich als KI-Infrastrukturführer gegenüber Google und Azure zu positionieren. Die Nova-Modellfamilie plus multimodale Embeddings plus Destillation plus S3 Vectors bildet einen konkreten, messbaren Stack mit dokumentierten Einsparungen.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Thinking with Reasoning Skills (ACL 2026 Industry Track): weniger Token, höhere Genauigkeit durch Abruf von Reasoning-Skills
DeepSeek veröffentlicht V4-Pro und V4-Flash: zwei Open-Source-Modelle mit einer Million Token Kontext und 80,6 auf SWE Verified
OpenAI stellt GPT-5.5 vor: das intelligenteste Modell für Coding, Forschung und komplexe Datenanalyse durch Werkzeuge