与基于转录的搜索相比，关键区别是什么？

转录会丢失所有非言语内容——视觉元素、音效、音乐对搜索变得不可见。Nova多模态嵌入将文本、图像、视频和音频视为语义空间中同等重要的部分。

与基线相比，性能提升了多少？

Recall@5从51%跃升至90%（39pp），Recall@10从64%跃升至95%，MRR从48%跃升至90%，NDCG@10从54%跃升至88%。所有指标提升了30至40个百分点。

AWS指出S3 Vectors是主要存储——比专业向量数据库便宜高达90%。OpenSearch Service覆盖kNN+元数据，Fargate处理工作负载，Transcribe用于音频，Rekognition用于名人识别。

AWS与近期关于Nova蒸馏的文章一起，于2026年4月17日发布了其视频搜索方案的第二个关键组成部分——Amazon Nova多模态嵌入。同一团队（Amit Kalawat、Bimal Gajjar、James Wu）的作者详细记录了从根本上改变AWS处理视频内容语义搜索方式的架构。

经典的视频搜索管道有一个明显的局限性：一切都被转换成文本。音频被转录，图像被描述，元数据被读取——然后文本嵌入模型进行搜索。问题在于：在这个过程中，90%的原始内容丢失了——音效、音乐、视觉构成、颜色、运动。

Nova多模态嵌入改变了这种方法。系统同时处理文本、文档、图像、视频和音频，放入统一的1024维向量空间。没有预先转换为文本——每种模态保留其语义。

摄取阶段将视频视为结构化信号：

搜索阶段使用意图感知路由：

意图分析（Claude Haiku）为每种模态（视觉、音频、转录、元数据）分配权重（0.0到1.0）
通过三个特定索引生成查询嵌入
最终分数 = w₁×norm_bm25 + w₂×norm_visual + w₃×norm_audio + w₄×norm_transcription

关键创新是语义和词汇搜索的结合：

没有BM25层，按具体人名或产品名称搜索将不可靠。嵌入确实在抽象概念上表现出色，但无法区分相似但不同的名称。

AWS在10个长视频和20个查询上测试了该系统，并将混合方法与基线组合模式嵌入解决方案进行了比较：

所有指标提升了30至40个百分点。 这不是渐进式提升——这是对视频搜索能力的重新定义。

AWS设计了一个企业规模下成本低廉的管道：

该架构通过高效的向量存储和选择性查询路由支持扩展到大型内容库——如果意图路由器评估音频与查询不相关（权重低于0.05），则根本不搜索音频索引。

在所有情况下，之前的转录方法会错过对于找到正确场景通常至关重要的视觉和音频信息。

结合Nova模型蒸馏文章（见姊妹文章），AWS在同一天发布了完整的视频搜索管道：嵌入架构+蒸馏路由。两篇文章来自同一作者团队，共同构成了管理大型视频档案的组织的完整企业解决方案。

对AWS来说，这是一个战略举措——亚马逊长期以来在相对于谷歌和Azure作为AI基础设施领导者的定位上存在困难。Nova系列模型+多模态嵌入+蒸馏+S3 Vectors构成了一个有具体的、可衡量节省的文档化堆栈。