AWS Nova多模态嵌入用于视频搜索:混合方法将召回率从51%提升至90%
为什么重要
AWS Nova多模态嵌入是一种新架构,可同时在统一的1024维向量空间中处理视频的视觉、音频和文本内容,无需转换为文本。语义嵌入与BM25词汇搜索的结合产生了90%的Recall@5,相比基线组合模式嵌入的51%——在所有指标上提升了30至40个百分点。
AWS与近期关于Nova蒸馏的文章一起,于2026年4月17日发布了其视频搜索方案的第二个关键组成部分——Amazon Nova多模态嵌入。同一团队(Amit Kalawat、Bimal Gajjar、James Wu)的作者详细记录了从根本上改变AWS处理视频内容语义搜索方式的架构。
有什么不同
经典的视频搜索管道有一个明显的局限性:一切都被转换成文本。音频被转录,图像被描述,元数据被读取——然后文本嵌入模型进行搜索。问题在于:在这个过程中,90%的原始内容丢失了——音效、音乐、视觉构成、颜色、运动。
Nova多模态嵌入改变了这种方法。系统同时处理文本、文档、图像、视频和音频,放入统一的1024维向量空间。没有预先转换为文本——每种模态保留其语义。
两阶段管道
摄取阶段将视频视为结构化信号:
- 通过FFmpeg进行场景检测——视频被分割成自然过渡(通常5-15秒)
- 三条并行处理线:
- 视觉+音频信号的1024维嵌入
- 转录带有对齐的句子级嵌入
- 名人识别+描述生成用于附加元数据
搜索阶段使用意图感知路由:
- 意图分析(Claude Haiku)为每种模态(视觉、音频、转录、元数据)分配权重(0.0到1.0)
- 通过三个特定索引生成查询嵌入
- 最终分数 = w₁×norm_bm25 + w₂×norm_visual + w₃×norm_audio + w₄×norm_transcription
混合方法:语义+词汇
关键创新是语义和词汇搜索的结合:
- 语义搜索(嵌入)——非常适合概念相似性(“戏剧性场景”、“怀旧氛围”)
- 词汇搜索(BM25)——非常适合精确实体(名称、产品代码、地点)
没有BM25层,按具体人名或产品名称搜索将不可靠。嵌入确实在抽象概念上表现出色,但无法区分相似但不同的名称。
性能:大幅提升
AWS在10个长视频和20个查询上测试了该系统,并将混合方法与基线组合模式嵌入解决方案进行了比较:
| 指标 | 混合方法 | 基线 |
|---|---|---|
| Recall@5 | 90% | 51% |
| Recall@10 | 95% | 64% |
| MRR | 90% | 48% |
| NDCG@10 | 88% | 54% |
所有指标提升了30至40个百分点。 这不是渐进式提升——这是对视频搜索能力的重新定义。
基础设施方面
AWS设计了一个企业规模下成本低廉的管道:
- S3 Vectors作为三个索引空间的主要存储——比专业向量数据库便宜高达90%
- OpenSearch Service用于kNN搜索和元数据索引
- AWS Fargate用于处理工作负载
- Amazon Transcribe用于音频转文本
- Amazon Rekognition用于名人识别
- Nova 2 Lite用于生成描述和类型
该架构通过高效的向量存储和选择性查询路由支持扩展到大型内容库——如果意图路由器评估音频与查询不相关(权重低于0.05),则根本不搜索音频索引。
AWS提及的用例
- 体育制作人在存档中搜索精彩片段
- 电影工作室搜索特定演员的场景
- 新闻组织按情绪、地点或事件搜索素材
在所有情况下,之前的转录方法会错过对于找到正确场景通常至关重要的视觉和音频信息。
更广泛的背景
结合Nova模型蒸馏文章(见姊妹文章),AWS在同一天发布了完整的视频搜索管道:嵌入架构+蒸馏路由。两篇文章来自同一作者团队,共同构成了管理大型视频档案的组织的完整企业解决方案。
对AWS来说,这是一个战略举措——亚马逊长期以来在相对于谷歌和Azure作为AI基础设施领导者的定位上存在困难。Nova系列模型+多模态嵌入+蒸馏+S3 Vectors构成了一个有具体的、可衡量节省的文档化堆栈。
本文由人工智能基于一手来源生成。