🤖 24 AI
🟡 🤖 Modeli subota, 18. travnja 2026. · 4 min čitanja

AWS Nova Multimodal Embeddings za video pretragu: hibridni pristup donosi 90 posto recalla umjesto 51 posto

Zašto je bitno

AWS Nova Multimodal Embeddings su nova arhitektura koja istovremeno obrađuje vizualni, audio i tekstualni sadržaj videa u zajednički 1024-dimenzionalni vektorski prostor bez pretvaranja u tekst. Kombinacija semantičkog embeddinga s BM25 leksičkom pretragom daje 90 posto Recall@5, u odnosu na 51 posto za baseline combined-mode embeddinge — skok od 30 do 40 postotnih bodova na svim mjerama.

AWS je, zajedno s nedavnim člankom o Nova distilaciji, 17. travnja 2026. objavio drugi ključni dio svoje video pretrazijske priče — Amazon Nova Multimodal Embeddings. Autori istog tima (Amit Kalawat, Bimal Gajjar, James Wu) detaljno dokumentiraju arhitekturu koja fundamentalno mijenja kako AWS pristupa semantičkoj pretrazi video sadržaja.

Što je drugačije

Klasičan video search pipeline ima jasno ograničenje: sve se pretvara u tekst. Audio se transkribira, slike se opisuju, metapodaci se čitaju — a onda tekstualni embedding model radi pretragu. Problem: u tom procesu gubi se 90 posto izvornog sadržaja — zvučni efekti, muzika, vizualna kompozicija, boje, pokret.

Nova Multimodal Embeddings mijenja taj pristup. Sustav procesira tekst, dokumente, slike, video i audio istovremeno u zajednički 1024-dimenzionalni vektorski prostor. Nema prethodne pretvorbe u tekst — svaki modalitet zadržava svoju semantiku.

Dvofazni pipeline

Ingestion faza tretira video kao strukturirani signal:

  1. Scene detection kroz FFmpeg — video se dijeli na prirodne prijelaze (tipično 5-15 sekundi)
  2. Tri paralelne grane obrade:
    • 1024-dim embeddings za vizualni + audio signal
    • Transkripcija s aligned sentence-level embeddingsima
    • Celebrity ID + caption generation za dodatne metapodatke

Search faza koristi intent-aware routing:

  1. Intent analiza (Claude Haiku) dodjeljuje težine (0,0 do 1,0) svakom modalitetu — vizualnom, audio, transkripciji, metapodacima
  2. Query embeddings se generiraju kroz tri specifična indeksa
  3. Final score = w₁ × norm_bm25 + w₂ × norm_visual + w₃ × norm_audio + w₄ × norm_transcription

Hibridni pristup: semantika + leksika

Ključna inovacija je kombinacija semantičkog i leksičkog pretraživanja:

  • Semantic search (embeddings) — odlično za konceptualnu sličnost (“dramatična scena”, “nostalgičan ton”)
  • Lexical search (BM25) — odlično za točne entitete (imena, kodovi proizvoda, lokacije)

Bez tog BM25 sloja, pretraga po konkretnim osobama ili nazivima proizvoda bila bi nepouzdana. Embeddings naime odlično rade na apstrakciji, ali ne vide razliku između sličnih, ali različitih imena.

Performans: masivan skok

AWS je testirao sustav na 10 dugih videa s 20 upita i usporedio hibridni pristup s baseline combined-mode embedding rješenjem:

MetrikaHibridni pristupBaseline
Recall@590%51%
Recall@1095%64%
MRR90%48%
NDCG@1088%54%

Između 30 i 40 postotnih bodova unaprijeđenja preko svih mjera. Ovo nije inkrementalan skok — ovo je redefinicija onoga što se može ostvariti s video pretragom.

Infrastrukturna strana

AWS je osmislio pipeline koji je jeftin za enterprise scale:

  • S3 Vectors kao primarni storage za tri indeksna prostora — do 90 posto jeftinije od specijaliziranih vektorskih DB-ova
  • OpenSearch Service za kNN pretragu i metadata indeksiranje
  • AWS Fargate za processing workloadove
  • Amazon Transcribe za audio-to-text
  • Amazon Rekognition za celebrity ID
  • Nova 2 Lite za generiranje opisa i žanrova

Arhitektura podržava skaliranje na masivne biblioteke sadržaja kroz efikasno vektorsko storage i selective query routing — ako intent router procijeni da audio nije relevantan za upit (težina ispod 0,05), audio indeks se uopće ne pretražuje.

Use caseovi koje AWS navodi

  • Sportski producenti traže highlight momente u arhivi
  • Filmski studiji pretražuju scene s konkretnim glumcima
  • News organizacije traže footage po raspoloženju, lokaciji ili događaju

U svim slučajevima, prethodni transkripcijski pristup je propuštao vizualne i audio informacije koje su često ključne za pronalazak prave scene.

Širi kontekst

Zajedno s Nova Model Distillation člankom (vidi sestrinski post), AWS je u istom danu objavio potpuni video search pipeline: embedding arhitekturu + destilirani routing. Oba članka dolaze od istog autorskog tima i čine kompletno enterprise rješenje za organizacije koje upravljaju velikim video arhivama.

Za AWS ovo je strateški potez — Amazon je dugo imao probleme pozicionirati se kao AI infrastrukturni leader u odnosu na Google i Azure. Nova obitelj modela + multimodal embeddings + distillation + S3 Vectors čine konkretan, mjerljiv stack s dokumentiranim uštedama.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.