🟡 🤖 모델 2026년 5월 7일 목요일 · 2 분 읽기 ·

Google: Gemini API, 멀티모달 File Search 이미지 검색 및 Interactions API 주요 변경 도입

편집 일러스트: Gemini API, 멀티모달 File Search 및 Interactions API 주요 변경 도입

Google이 gemini-embedding-2 모델을 사용해 Gemini File Search를 멀티모달 이미지 검색으로 확장하고, 시각적 인용을 위해 기반 메타데이터에 media_id를 추가했습니다. 동시에 Interactions API의 주요 변경을 발표했습니다. outputs가 steps로 바뀌며, 새 기본값은 2026년 5월 20일부터, 구 스키마 제거는 2026년 6월 6일입니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

Google은 Gemini API 변경 로그에서 두 가지 중요한 변경 사항을 발표했습니다. File Search의 멀티모달 이미지 검색 확장(2026년 5월 6일)과 Interactions API의 주요 변경(2026년 5월 7일)입니다. 두 변경 모두 Gemini 스택 위에 애플리케이션을 구축하는 개발자에게 영향을 미칩니다.

멀티모달 File Search는 무엇을 가능하게 합니까?

File Search가 이제 새로운 gemini-embedding-2 모델을 사용해 이미지를 네이티브로 임베딩하고 검색할 수 있습니다. 이를 통해 개발자가 시각적 콘텐츠에 대한 임베딩을 별도로 생성하거나 이미지를 텍스트 설명으로 변환해야 했던 기존 방식이 사라집니다.

기반 메타데이터에 두 가지 새 필드가 추가되었습니다. media_id는 시각적 인용(답변에 기여한 이미지의 정확한 식별)을 가능하게 하고, page_numbers는 원본 문서 내 구체적인 페이지를 나타냅니다. 이 조합으로 텍스트와 이미지가 혼합된 PDF 및 기타 문서 위에 RAG 시스템을 구축하기가 용이해집니다.

Interactions API에서 무엇이 변경됩니까?

이는 요청 및 응답 스키마의 주요 변경입니다. outputs 필드가 steps로 이름이 변경되고, 출력 형식 구성(response_format)도 동시에 변경됩니다. Google은 변경 로그에서 “Interactions API 요청 및 응답 스키마(outputssteps)와 출력 형식 구성(response_format)이 변경됩니다”라고 명시했습니다.

새 스키마는 2026년 5월 20일부터 기본값이 되어, 클라이언트가 자동으로 전환되기 전 마이그레이션을 테스트할 2주가 주어집니다. 구 스키마는 2026년 6월 6일에 완전히 제거됩니다. 이 날짜 이후에는 구 클라이언트 코드가 더 이상 작동하지 않습니다.

개발자는 무엇을 해야 합니까?

Interactions API를 사용하는 팀은 응답 파싱 로직을 업데이트하고 코드의 outputs 필드 참조를 확인해야 합니다. Google은 프로덕션 중단을 피하기 위해 5월 20일 전에 마이그레이션 가이드를 참조할 것을 권장합니다.

File Search 사용자에게는 이미지 가져오기를 검토하고 인용 UI에서 새 media_idpage_numbers 필드가 사용되는지 확인할 것을 권장합니다. 멀티모달 확장은 하위 호환성을 유지합니다. 기존 텍스트 검색은 수정 없이 계속 작동합니다.

자주 묻는 질문

멀티모달 File Search 확장은 무엇을 가져옵니까?
File Search가 이제 gemini-embedding-2 모델을 사용해 이미지를 네이티브로 임베딩하고 검색할 수 있습니다. 기반 메타데이터에는 시각적 인용을 위한 media_id와 원본 문서 내 정보 위치를 나타내는 page_numbers가 추가되었습니다.
Interactions API는 어떻게 변경됩니까?
스키마가 `outputs`를 `steps`로 변경하고 출력 형식 구성(`response_format`)도 변경됩니다. 새 스키마는 2026년 5월 20일부터 기본값이 되며, 구 스키마는 2026년 6월 6일에 완전히 제거됩니다.
개발자에게 마이그레이션 시간이 얼마나 주어집니까?
2026년 5월 20일부터 새 스키마가 기본값이 되지만 구 스키마는 2026년 6월 6일까지 계속 작동합니다. 클라이언트 구현 테스트와 조정을 위해 약 2주의 전환 기간이 주어집니다.