AWS Nova 멀티모달 임베딩을 활용한 비디오 검색:하이브리드 접근법으로 리콜 51%에서 90%로
왜 중요한가
AWS Nova 멀티모달 임베딩은 텍스트로 변환하지 않고 비디오의 시각, 오디오, 텍스트 콘텐츠를 통합된 1024차원 벡터 공간에서 동시에 처리하는 새로운 아키텍처입니다. 시맨틱 임베딩과 BM25 어휘 검색의 결합은 Recall@5 90%를 달성했으며, 기준선 결합 모드 임베딩의 51%와 비교해——모든 지표에서 30~40퍼센트 포인트 향상되었습니다.
AWS는 Nova 증류에 관한 최근 기사와 함께 2026년 4월 17일 비디오 검색 스토리의 두 번째 핵심 요소인 Amazon Nova 멀티모달 임베딩을 발표했습니다. 같은 팀(Amit Kalawat, Bimal Gajjar, James Wu)의 저자들은 AWS가 비디오 콘텐츠의 시맨틱 검색에 접근하는 방식을 근본적으로 바꾸는 아키텍처를 상세히 문서화합니다.
무엇이 다른가
클래식 비디오 검색 파이프라인에는 명확한 한계가 있습니다: 모든 것이 텍스트로 변환됩니다. 오디오는 전사되고, 이미지는 설명되고, 메타데이터는 읽힙니다——그런 다음 텍스트 임베딩 모델이 검색합니다. 문제는 이 과정에서 원본 콘텐츠의 90%가 손실된다는 것입니다——음향 효과, 음악, 시각적 구성, 색상, 움직임.
Nova 멀티모달 임베딩은 이 접근법을 바꿉니다. 시스템은 텍스트, 문서, 이미지, 비디오, 오디오를 동시에 통합된 1024차원 벡터 공간에서 처리합니다. 사전 텍스트 변환이 없습니다——각 모달리티가 자체 시맨틱을 유지합니다.
2단계 파이프라인
수집 단계는 비디오를 구조화된 신호로 처리합니다:
- FFmpeg를 통한 장면 감지——비디오가 자연스러운 전환으로 분할됩니다(보통 5-15초)
- 세 가지 병렬 처리 브랜치:
- 시각+오디오 신호의 1024차원 임베딩
- 정렬된 문장 수준 임베딩을 가진 전사
- 추가 메타데이터를 위한 유명인 식별+캡션 생성
검색 단계는 의도 인식 라우팅을 사용합니다:
- 의도 분석 (Claude Haiku)이 각 모달리티(시각, 오디오, 전사, 메타데이터)에 가중치를 할당합니다(0.0~1.0)
- 세 개의 특정 인덱스를 통해 쿼리 임베딩이 생성됩니다
- 최종 점수 = w₁×norm_bm25 + w₂×norm_visual + w₃×norm_audio + w₄×norm_transcription
하이브리드 접근법: 시맨틱+어휘
핵심 혁신은 시맨틱과 어휘 검색의 결합입니다:
- 시맨틱 검색 (임베딩) — 개념적 유사성에 탁월합니다 (“극적인 장면”, “향수를 자극하는 분위기”)
- 어휘 검색 (BM25) — 정확한 엔티티에 탁월합니다 (이름, 제품 코드, 위치)
BM25 레이어 없이는 특정 인물이나 제품 이름으로 검색하는 것이 불안정합니다. 임베딩은 추상화에는 뛰어나지만 비슷하지만 다른 이름을 구별하지 못합니다.
성능: 대폭 향상
AWS는 10개의 긴 비디오와 20개의 쿼리에서 시스템을 테스트하고 하이브리드 접근법을 기준선 결합 모드 임베딩 솔루션과 비교했습니다:
| 지표 | 하이브리드 접근법 | 기준선 |
|---|---|---|
| Recall@5 | 90% | 51% |
| Recall@10 | 95% | 64% |
| MRR | 90% | 48% |
| NDCG@10 | 88% | 54% |
모든 지표에서 30~40퍼센트 포인트 향상. 이것은 점진적인 향상이 아닙니다——이것은 비디오 검색으로 달성할 수 있는 것의 재정의입니다.
인프라 측면
AWS는 기업 규모에서 저렴한 파이프라인을 설계했습니다:
- 세 개의 인덱스 공간을 위한 주요 스토리지로 S3 Vectors — 전문 벡터 DB보다 최대 90% 저렴
- OpenSearch Service — kNN 검색 및 메타데이터 인덱싱
- AWS Fargate — 처리 워크로드용
- Amazon Transcribe — 오디오-텍스트 변환
- Amazon Rekognition — 유명인 식별
- Nova 2 Lite — 설명 및 장르 생성
아키텍처는 효율적인 벡터 스토리지와 선택적 쿼리 라우팅을 통해 대규모 콘텐츠 라이브러리로의 확장을 지원합니다——의도 라우터가 오디오가 쿼리와 관련 없다고 평가하면(가중치 0.05 미만), 오디오 인덱스는 아예 검색되지 않습니다.
AWS가 언급한 사용 사례
- 스포츠 제작자가 아카이브에서 하이라이트 순간을 검색
- 영화 스튜디오가 특정 배우의 장면을 검색
- 뉴스 조직이 분위기, 위치, 이벤트로 영상을 검색
모든 경우에서, 이전의 전사 기반 접근법은 올바른 장면을 찾는 데 종종 결정적인 시각적 및 오디오 정보를 놓치고 있었습니다.
더 넓은 배경
Nova 모델 증류 기사(자매 기사 참조)와 함께 AWS는 같은 날 완전한 비디오 검색 파이프라인을 발표했습니다: 임베딩 아키텍처+증류 라우팅. 두 기사 모두 같은 저자 팀에서 나왔으며 대형 비디오 아카이브를 관리하는 조직을 위한 완전한 엔터프라이즈 솔루션을 구성합니다.
AWS에게 이것은 전략적 움직임입니다——Amazon은 Google 및 Azure 대비 AI 인프라 리더로서의 위치 설정에 오랫동안 어려움을 겪어왔습니다. Nova 모델 패밀리+멀티모달 임베딩+증류+S3 Vectors는 문서화된 절감을 가진 구체적이고 측정 가능한 스택을 형성합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.