Koja je ključna razlika u odnosu na transkripcijsko-temeljenu pretragu?

Transkripcija gubi sve što nije govor — vizualni elementi, zvučni efekti, glazba postaju nevidljivi pretrazi. Nova Multimodal Embeddings tretira tekst, slike, video i audio kao jednak dio semantičkog prostora.

Koliki su performans skokovi u odnosu na baseline?

Recall@5 skače s 51 na 90 posto (39 pp), Recall@10 s 64 na 95 posto, MRR s 48 na 90 posto, NDCG@10 s 54 na 88 posto. Između 30 i 40 postotnih bodova unaprijeđenja preko svih mjera.

Koliko košta infrastruktura?

AWS navodi S3 Vectors kao glavni storage — do 90 posto jeftiniji od specijaliziranih vektorskih DB-ova. OpenSearch Service pokriva kNN + metapodatke, Fargate processing, Transcribe za audio, Rekognition za celebrity ID.

AWS Nova Multimodal Embeddings za video pretragu: hibridni pristup donosi 90 posto recalla umjesto 51 posto

AWS Nova Multimodal Embeddings su nova arhitektura koja istovremeno obrađuje vizualni, audio i tekstualni sadržaj videa u zajednički 1024-dimenzionalni vektorski prostor bez pretvaranja u tekst. Kombinacija semantičkog embeddinga s BM25 leksičkom pretragom daje 90 posto Recall@5, u odnosu na 51 posto za baseline combined-mode embeddinge — skok od 30 do 40 postotnih bodova na svim mjerama.

AWS je, zajedno s nedavnim člankom o Nova distilaciji, 17. travnja 2026. objavio drugi ključni dio svoje video pretrazijske priče — Amazon Nova Multimodal Embeddings. Autori istog tima (Amit Kalawat, Bimal Gajjar, James Wu) detaljno dokumentiraju arhitekturu koja fundamentalno mijenja kako AWS pristupa semantičkoj pretrazi video sadržaja.

Što je drugačije

Klasičan video search pipeline ima jasno ograničenje: sve se pretvara u tekst. Audio se transkribira, slike se opisuju, metapodaci se čitaju — a onda tekstualni embedding model radi pretragu. Problem: u tom procesu gubi se 90 posto izvornog sadržaja — zvučni efekti, muzika, vizualna kompozicija, boje, pokret.

Nova Multimodal Embeddings mijenja taj pristup. Sustav procesira tekst, dokumente, slike, video i audio istovremeno u zajednički 1024-dimenzionalni vektorski prostor. Nema prethodne pretvorbe u tekst — svaki modalitet zadržava svoju semantiku.

Dvofazni pipeline

Ingestion faza tretira video kao strukturirani signal:

Scene detection kroz FFmpeg — video se dijeli na prirodne prijelaze (tipično 5-15 sekundi)
Tri paralelne grane obrade:
- 1024-dim embeddings za vizualni + audio signal
- Transkripcija s aligned sentence-level embeddingsima
- Celebrity ID + caption generation za dodatne metapodatke

Search faza koristi intent-aware routing:

Intent analiza (Claude Haiku) dodjeljuje težine (0,0 do 1,0) svakom modalitetu — vizualnom, audio, transkripciji, metapodacima
Query embeddings se generiraju kroz tri specifična indeksa
Final score = w₁ × norm_bm25 + w₂ × norm_visual + w₃ × norm_audio + w₄ × norm_transcription

Hibridni pristup: semantika + leksika

Ključna inovacija je kombinacija semantičkog i leksičkog pretraživanja:

Semantic search (embeddings) — odlično za konceptualnu sličnost (“dramatična scena”, “nostalgičan ton”)
Lexical search (BM25) — odlično za točne entitete (imena, kodovi proizvoda, lokacije)

Bez tog BM25 sloja, pretraga po konkretnim osobama ili nazivima proizvoda bila bi nepouzdana. Embeddings naime odlično rade na apstrakciji, ali ne vide razliku između sličnih, ali različitih imena.

Performans: masivan skok

AWS je testirao sustav na 10 dugih videa s 20 upita i usporedio hibridni pristup s baseline combined-mode embedding rješenjem:

Metrika	Hibridni pristup	Baseline
Recall@5	90%	51%
Recall@10	95%	64%
MRR	90%	48%
NDCG@10	88%	54%

Između 30 i 40 postotnih bodova unaprijeđenja preko svih mjera. Ovo nije inkrementalan skok — ovo je redefinicija onoga što se može ostvariti s video pretragom.

Infrastrukturna strana

AWS je osmislio pipeline koji je jeftin za enterprise scale:

S3 Vectors kao primarni storage za tri indeksna prostora — do 90 posto jeftinije od specijaliziranih vektorskih DB-ova
OpenSearch Service za kNN pretragu i metadata indeksiranje
AWS Fargate za processing workloadove
Amazon Transcribe za audio-to-text
Amazon Rekognition za celebrity ID
Nova 2 Lite za generiranje opisa i žanrova

Arhitektura podržava skaliranje na masivne biblioteke sadržaja kroz efikasno vektorsko storage i selective query routing — ako intent router procijeni da audio nije relevantan za upit (težina ispod 0,05), audio indeks se uopće ne pretražuje.

Use caseovi koje AWS navodi

Sportski producenti traže highlight momente u arhivi
Filmski studiji pretražuju scene s konkretnim glumcima
News organizacije traže footage po raspoloženju, lokaciji ili događaju

U svim slučajevima, prethodni transkripcijski pristup je propuštao vizualne i audio informacije koje su često ključne za pronalazak prave scene.

Širi kontekst

Zajedno s Nova Model Distillation člankom (vidi sestrinski post), AWS je u istom danu objavio potpuni video search pipeline: embedding arhitekturu + destilirani routing. Oba članka dolaze od istog autorskog tima i čine kompletno enterprise rješenje za organizacije koje upravljaju velikim video arhivama.

Za AWS ovo je strateški potez — Amazon je dugo imao probleme pozicionirati se kao AI infrastrukturni leader u odnosu na Google i Azure. Nova obitelj modela + multimodal embeddings + distillation + S3 Vectors čine konkretan, mjerljiv stack s dokumentiranim uštedama.