AWS Nova：航拍图像 F1=0.621（+13%）

Vexcel 与 AWS 演示了使用 Amazon Nova 多模态嵌入进行航空摄影语义搜索的方法。在测试约100种配置后，LLM 生成的描述使泳池检测的 F1 分数提高了11%、道路检测提高了13%，并由此发展为可在45个以上国家使用的商业产品 Vexcel Intelligence。

Amazon Nova 如何在航拍照片中找到泳池？

Amazon Nova 多模态嵌入——一个将文本和图像转化为共享向量空间的模型——在航拍照片上实现了泳池检测 F1=0.621、道路检测 F1=0.555 的成绩。领先的航空地理数据提供商 Vexcel 在选定 Amazon Nova 作为系统基础之前，测试了大约100种不同的模型配置和参数组合。

多模态嵌入是同时编码视觉和文本内容的数值向量，这意味着用户可以通过简单的文字查询搜索数百万张航拍图像——无需手动标注每张照片。

整个项目中最大的单项提升来自大型语言模型（LLM）自动生成的图像描述：与不使用文本描述的方案相比，泳池检测提升了 +11% F1，道路检测提升了 +13% F1。这一发现证明，文本与视觉内容的结合优于纯视觉的卫星和航拍图像搜索方法。

Vexcel 数据库中的每个位置都从7个视角覆盖：正射俯视图、四个不同角度的倾斜拍摄、数字表面模型（DSM）和数字地形模型（DTM）。

这项研究直接演进为商业产品 Vexcel Intelligence，目前在45个以上国家处于预览阶段。后端基础设施依托 Amazon Bedrock 提供模型、OpenSearch Serverless 提供向量搜索以及 Amazon S3 提供影像数据存储。

与需要针对每类目标手动标注数据集的传统方法不同，基于多模态嵌入的语义搜索可以支持「河流沿岸工业区」等查询，无需任何预先标注。

常见问题

什么是多模态嵌入，它对图像搜索有何用处？

多模态嵌入是将文本和视觉内容编码到统一共享空间的数值向量，使用户可以通过文字查询搜索图像，无需手动标注每张照片。

为航拍照片添加 LLM 生成描述带来了多大改善？

LLM 生成的描述为泳池检测带来 +11% F1 提升，为道路检测带来 +13% F1 提升——这是约100种配置测试中最大的单项提升。