🟢 🏥 实践应用 发布于: · 1 分钟阅读 ·

AWS:借助 Amazon Nova 多模态嵌入实现航拍图像语义搜索(Vexcel 案例)

编辑插图:航拍照片网格,叠加语义搜索查询界面,突出显示检测到的泳池和道路

Vexcel 与 AWS 演示了使用 Amazon Nova 多模态嵌入进行航空摄影语义搜索的方法。在测试约100种配置后,LLM 生成的描述使泳池检测的 F1 分数提高了11%、道路检测提高了13%,并由此发展为可在45个以上国家使用的商业产品 Vexcel Intelligence。

🤖

本文由人工智能基于一手来源生成。

Amazon Nova 如何在航拍照片中找到泳池?

Amazon Nova 多模态嵌入——一个将文本和图像转化为共享向量空间的模型——在航拍照片上实现了泳池检测 F1=0.621、道路检测 F1=0.555 的成绩。领先的航空地理数据提供商 Vexcel 在选定 Amazon Nova 作为系统基础之前,测试了大约100种不同的模型配置和参数组合。

多模态嵌入是同时编码视觉和文本内容的数值向量,这意味着用户可以通过简单的文字查询搜索数百万张航拍图像——无需手动标注每张照片。

LLM 描述是关键因素

整个项目中最大的单项提升来自大型语言模型(LLM)自动生成的图像描述:与不使用文本描述的方案相比,泳池检测提升了 +11% F1,道路检测提升了 +13% F1。这一发现证明,文本与视觉内容的结合优于纯视觉的卫星和航拍图像搜索方法。

Vexcel 数据库中的每个位置都从7个视角覆盖:正射俯视图、四个不同角度的倾斜拍摄、数字表面模型(DSM)和数字地形模型(DTM)。

商业成果与技术栈

这项研究直接演进为商业产品 Vexcel Intelligence,目前在45个以上国家处于预览阶段。后端基础设施依托 Amazon Bedrock 提供模型、OpenSearch Serverless 提供向量搜索以及 Amazon S3 提供影像数据存储。

与需要针对每类目标手动标注数据集的传统方法不同,基于多模态嵌入的语义搜索可以支持「河流沿岸工业区」等查询,无需任何预先标注。

常见问题

什么是多模态嵌入,它对图像搜索有何用处?
多模态嵌入是将文本和视觉内容编码到统一共享空间的数值向量,使用户可以通过文字查询搜索图像,无需手动标注每张照片。
为航拍照片添加 LLM 生成描述带来了多大改善?
LLM 生成的描述为泳池检测带来 +11% F1 提升,为道路检测带来 +13% F1 提升——这是约100种配置测试中最大的单项提升。