🟡 🤖 모델 2026년 5월 6일 수요일 · 2 분 읽기 ·

Google: Gemini API File Search, 이미지와 텍스트의 멀티모달 검색으로 확장

편집 일러스트: Gemini API가 임베딩 모델을 통해 이미지와 텍스트를 공통 의미론적 검색으로 결합합니다

Google이 Gemini API의 File Search를 멀티모달 검색으로 확장하여 gemini-embedding-2 모델을 통해 이미지와 텍스트 문서의 기본 임베딩 및 검색을 가능하게 했습니다. 두 개의 새로운 grounding 필드와 Batch API를 위한 이벤트 기반 webhook 지원이 추가되었습니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

Google이 발표한 것은 무엇입니까?

Google이 Gemini API의 File Search 기능을 멀티모달 검색으로 확장했습니다. 이전에는 텍스트에만 제한되었던 것이, 이제 gemini-embedding-2 모델을 사용하여 이미지와 기존 텍스트 문서의 기본 임베딩 및 검색을 지원합니다.

임베딩은 의미론적 비교를 가능하게 하는 콘텐츠의 벡터 표현입니다. grounding은 답변을 구체적인 출처와 연결하는 것을 의미합니다.

새로운 grounding 필드는 무엇을 가져옵니까?

이번 업데이트는 File Search 결과에 두 개의 새로운 메타데이터를 도입합니다:

  • media_id ——시각적 인용을 위한 식별자로, 응답의 참조를 정확한 이미지와 연결할 수 있습니다.
  • page_numbers ——문서의 페이지 번호로, PDF나 여러 페이지 파일 내에서 소스 위치 추적을 용이하게 합니다.

개발 팀에게 이는 RAG 애플리케이션이 이제 텍스트 단락과 마찬가지로 자연스럽게 기술 문서의 이미지를 인용할 수 있음을 의미합니다.

webhook 지원은 무엇을 가져옵니까?

File Search와 병행하여 Google은 5월 4일 Gemini API에 이벤트 기반 webhook 지원을 도입했습니다. Batch API 작업 및 기타 장기 실행 프로세스의 전통적인 폴링 워크플로우를 대체합니다.

클라이언트가 몇 초마다 “완료되었습니까?”를 묻는 대신, Gemini가 상태가 변경될 때 자동으로 구성된 URL로 HTTP 요청을 보냅니다. 이를 통해 클라이언트 측 부하와 알림 지연이 줄어듭니다.

왜 이것이 중요합니까?

멀티모달 File Search는 이미지와 텍스트를 위한 별도 파이프라인의 필요성을 제거합니다——하나의 벡터 공간이 두 가지를 모두 커버합니다. 이는 제품 카탈로그 검색, 의료 문서 또는 도표가 있는 기술 매뉴얼과 같은 엔터프라이즈 시나리오에 중요합니다.

한편 webhook 지원은 배치 처리 통합을 현대화하고 Gemini API를 이벤트 기반 아키텍처와 더 호환 가능하게 만듭니다.

자주 묻는 질문

멀티모달 File Search를 구동하는 모델은 무엇입니까?
이미지와 텍스트를 공통 벡터 공간에 기본으로 임베딩하는 gemini-embedding-2 모델입니다.
새로운 grounding 필드는 무엇입니까?
media_id는 시각적 인용에, page_numbers는 문서 내 위치 추적에 사용됩니다.
webhook은 무엇을 가져옵니까?
Batch API 및 기타 장기 실행 프로세스의 폴링 워크플로우를 대체하여 클라이언트 부하를 줄입니다.