AWS Nova Multimodal Embeddings za video pretragu: hibridni pristup donosi 90 posto recalla umjesto 51 posto
AWS Nova Multimodal Embeddings su nova arhitektura koja istovremeno obrađuje vizualni, audio i tekstualni sadržaj videa u zajednički 1024-dimenzionalni vektorski prostor bez pretvaranja u tekst. Kombinacija semantičkog embeddinga s BM25 leksičkom pretragom daje 90 posto Recall@5, u odnosu na 51 posto za baseline combined-mode embeddinge — skok od 30 do 40 postotnih bodova na svim mjerama.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
AWS je, zajedno s nedavnim člankom o Nova distilaciji, 17. travnja 2026. objavio drugi ključni dio svoje video pretrazijske priče — Amazon Nova Multimodal Embeddings. Autori istog tima (Amit Kalawat, Bimal Gajjar, James Wu) detaljno dokumentiraju arhitekturu koja fundamentalno mijenja kako AWS pristupa semantičkoj pretrazi video sadržaja.
Što je drugačije
Klasičan video search pipeline ima jasno ograničenje: sve se pretvara u tekst. Audio se transkribira, slike se opisuju, metapodaci se čitaju — a onda tekstualni embedding model radi pretragu. Problem: u tom procesu gubi se 90 posto izvornog sadržaja — zvučni efekti, muzika, vizualna kompozicija, boje, pokret.
Nova Multimodal Embeddings mijenja taj pristup. Sustav procesira tekst, dokumente, slike, video i audio istovremeno u zajednički 1024-dimenzionalni vektorski prostor. Nema prethodne pretvorbe u tekst — svaki modalitet zadržava svoju semantiku.
Dvofazni pipeline
Ingestion faza tretira video kao strukturirani signal:
- Scene detection kroz FFmpeg — video se dijeli na prirodne prijelaze (tipično 5-15 sekundi)
- Tri paralelne grane obrade:
- 1024-dim embeddings za vizualni + audio signal
- Transkripcija s aligned sentence-level embeddingsima
- Celebrity ID + caption generation za dodatne metapodatke
Search faza koristi intent-aware routing:
- Intent analiza (Claude Haiku) dodjeljuje težine (0,0 do 1,0) svakom modalitetu — vizualnom, audio, transkripciji, metapodacima
- Query embeddings se generiraju kroz tri specifična indeksa
- Final score = w₁ × norm_bm25 + w₂ × norm_visual + w₃ × norm_audio + w₄ × norm_transcription
Hibridni pristup: semantika + leksika
Ključna inovacija je kombinacija semantičkog i leksičkog pretraživanja:
- Semantic search (embeddings) — odlično za konceptualnu sličnost (“dramatična scena”, “nostalgičan ton”)
- Lexical search (BM25) — odlično za točne entitete (imena, kodovi proizvoda, lokacije)
Bez tog BM25 sloja, pretraga po konkretnim osobama ili nazivima proizvoda bila bi nepouzdana. Embeddings naime odlično rade na apstrakciji, ali ne vide razliku između sličnih, ali različitih imena.
Performans: masivan skok
AWS je testirao sustav na 10 dugih videa s 20 upita i usporedio hibridni pristup s baseline combined-mode embedding rješenjem:
| Metrika | Hibridni pristup | Baseline |
|---|---|---|
| Recall@5 | 90% | 51% |
| Recall@10 | 95% | 64% |
| MRR | 90% | 48% |
| NDCG@10 | 88% | 54% |
Između 30 i 40 postotnih bodova unaprijeđenja preko svih mjera. Ovo nije inkrementalan skok — ovo je redefinicija onoga što se može ostvariti s video pretragom.
Infrastrukturna strana
AWS je osmislio pipeline koji je jeftin za enterprise scale:
- S3 Vectors kao primarni storage za tri indeksna prostora — do 90 posto jeftinije od specijaliziranih vektorskih DB-ova
- OpenSearch Service za kNN pretragu i metadata indeksiranje
- AWS Fargate za processing workloadove
- Amazon Transcribe za audio-to-text
- Amazon Rekognition za celebrity ID
- Nova 2 Lite za generiranje opisa i žanrova
Arhitektura podržava skaliranje na masivne biblioteke sadržaja kroz efikasno vektorsko storage i selective query routing — ako intent router procijeni da audio nije relevantan za upit (težina ispod 0,05), audio indeks se uopće ne pretražuje.
Use caseovi koje AWS navodi
- Sportski producenti traže highlight momente u arhivi
- Filmski studiji pretražuju scene s konkretnim glumcima
- News organizacije traže footage po raspoloženju, lokaciji ili događaju
U svim slučajevima, prethodni transkripcijski pristup je propuštao vizualne i audio informacije koje su često ključne za pronalazak prave scene.
Širi kontekst
Zajedno s Nova Model Distillation člankom (vidi sestrinski post), AWS je u istom danu objavio potpuni video search pipeline: embedding arhitekturu + destilirani routing. Oba članka dolaze od istog autorskog tima i čine kompletno enterprise rješenje za organizacije koje upravljaju velikim video arhivama.
Za AWS ovo je strateški potez — Amazon je dugo imao probleme pozicionirati se kao AI infrastrukturni leader u odnosu na Google i Azure. Nova obitelj modela + multimodal embeddings + distillation + S3 Vectors čine konkretan, mjerljiv stack s dokumentiranim uštedama.
Česta pitanja
- Koja je ključna razlika u odnosu na transkripcijsko-temeljenu pretragu?
- Transkripcija gubi sve što nije govor — vizualni elementi, zvučni efekti, glazba postaju nevidljivi pretrazi. Nova Multimodal Embeddings tretira tekst, slike, video i audio kao jednak dio semantičkog prostora.
- Koliki su performans skokovi u odnosu na baseline?
- Recall@5 skače s 51 na 90 posto (39 pp), Recall@10 s 64 na 95 posto, MRR s 48 na 90 posto, NDCG@10 s 54 na 88 posto. Između 30 i 40 postotnih bodova unaprijeđenja preko svih mjera.
- Koliko košta infrastruktura?
- AWS navodi S3 Vectors kao glavni storage — do 90 posto jeftiniji od specijaliziranih vektorskih DB-ova. OpenSearch Service pokriva kNN + metapodatke, Fargate processing, Transcribe za audio, Rekognition za celebrity ID.
Povezane vijesti
arXiv:2605.21006: Off-the-shelf persona vektori postižu 68-98% učinkovitosti targetiranog sycophancy steeringa u LLM modelima
Black Forest Labs: FLUX Erase nadmašuje GPT Image-2 (68.5%) i Finegrain (63.2%) u uklanjanju objekata bez prompta
arXiv:2605.19762: ICML 2026 paper tvrdi da kod ne poboljšava matematičko zaključivanje LLM-ova