AWS: Amazon Nova 멀티모달 임베딩으로 항공 이미지 시맨틱 검색 (Vexcel)
Vexcel과 AWS는 Amazon Nova 멀티모달 임베딩을 활용한 항공 사진 시맨틱 검색을 시연했습니다. 약 100가지 구성 테스트 후, LLM이 생성한 설명이 수영장 F1 점수를 11%, 도로 F1 점수를 13% 향상시켰으며, 이는 45개국 이상에서 이용 가능한 상업 제품 Vexcel Intelligence로 발전했습니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Amazon Nova는 항공 사진에서 어떻게 수영장을 찾나요?
텍스트와 이미지를 공통 벡터 공간으로 변환하는 모델인 Amazon Nova 멀티모달 임베딩은 항공 사진에서 수영장 감지 F1=0.621, 도로 감지 F1=0.555를 달성했습니다. 선도적인 항공 측지 데이터 제공업체 Vexcel은 Amazon Nova를 시스템 기반으로 선택하기 전에 약 100가지 모델 구성과 파라미터를 테스트했습니다.
멀티모달 임베딩은 시각적·텍스트 내용을 동시에 하나의 공간으로 인코딩하는 수치 벡터로, 사용자가 각 이미지를 수동으로 레이블링하지 않고 간단한 텍스트 쿼리만으로 수백만 장의 항공 이미지를 검색할 수 있게 합니다.
LLM 설명이 핵심 요인
전체 프로젝트에서 가장 큰 단일 개선은 대형 언어 모델이 자동 생성한 설명(LLM 캡션)이었습니다. 텍스트 설명 없는 방식 대비 수영장 F1 +11%, 도로 F1 +13%를 달성했습니다. 이 발견은 텍스트와 시각적 내용의 조합이 위성·항공 이미지의 순수 시각적 검색 접근 방식을 능가한다는 것을 확인해줍니다.
Vexcel 데이터베이스의 각 위치는 7가지 관점으로 커버됩니다. 위에서 바라본 정사영상, 서로 다른 각도의 사사 촬영 4장, 수치 표면 모델(DSM), 수치 지형 모델(DTM)입니다.
상업적 성과와 기술 스택
이 연구는 직접적으로 45개국 이상에서 프리뷰 단계로 이용 가능한 상업 제품 Vexcel Intelligence로 발전했습니다. 백엔드 인프라는 모델링에 Amazon Bedrock, 벡터 검색에 OpenSearch Serverless, 이미지 데이터 저장에 Amazon S3를 활용합니다.
객체 카테고리마다 수동 레이블링 데이터셋이 필요한 기존 접근 방식과 달리, 멀티모달 임베딩 기반 시맨틱 검색은 어떠한 사전 어노테이션 없이도 『강가의 산업 지대』와 같은 쿼리를 처리할 수 있습니다.
자주 묻는 질문
- 멀티모달 임베딩이란 무엇이며 이미지 검색에 왜 유용한가요?
- 멀티모달 임베딩은 텍스트와 시각적 내용을 하나의 공통 공간에 수치 벡터로 인코딩하여, 각 사진을 수동으로 레이블링하지 않고도 텍스트 쿼리로 이미지를 검색할 수 있게 합니다.
- 항공 사진에 LLM 생성 설명을 추가했을 때 얼마나 향상되었나요?
- LLM 생성 설명은 수영장 감지 F1 +11%, 도로 감지 F1 +13%를 가져왔으며, 이는 약 100가지 구성을 테스트한 전체 과정에서 가장 큰 단일 개선이었습니다.