🟡 🤖 Modelle Donnerstag, 7. Mai 2026 · 2 Min. Lesezeit ·

Google: Gemini API erhält multimodale Dateisuche für Bilder und Breaking Change im Interactions API

Editorial-Illustration: Gemini API erhält multimodale Dateisuche und Breaking Change im Interactions API

Google hat Gemini File Search auf multimodale Bildsuche mit dem Modell gemini-embedding-2 erweitert, mit media_id in Grounding-Metadaten für visuelle Zitierungen. Gleichzeitig wird ein Breaking Change im Interactions API angekündigt: outputs wird zu steps, mit neuem Standard ab 20.05.2026 und Entfernung des alten Schemas am 06.06.2026.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Google hat im Gemini-API-Changelog zwei bedeutende Änderungen angekündigt: eine Erweiterung der Dateisuche auf multimodale Bildsuche (6. Mai 2026) und einen Breaking Change im Interactions API (7. Mai 2026). Beide Änderungen betreffen Entwickler, die Anwendungen auf dem Gemini-Stack aufbauen.

Was ermöglicht die multimodale Dateisuche?

File Search bettet nun nativ Bilder ein und durchsucht sie mithilfe des neuen Modells gemini-embedding-2. Damit entfällt der bisherige Workflow, bei dem Entwickler separat Embeddings für visuellen Inhalt generieren oder Bilder in Textbeschreibungen konvertieren mussten.

Die Grounding-Metadaten wurden um zwei neue Felder erweitert: media_id, das visuelle Zitierungen ermöglicht (genaue Kennzeichnung des Bildes, das zur Antwort beigetragen hat), und page_numbers, das auf konkrete Seiten im Quelldokument verweist. Die Kombination erleichtert den Aufbau von RAG-Systemen über PDFs und andere Dokumente, die Text und Bilder mischen.

Was ändert sich im Interactions API?

Es handelt sich um einen Breaking Change im Anfrage- und Antwort-Schema. Das Feld outputs wird in steps umbenannt, und gleichzeitig ändert sich die Konfiguration des Ausgabeformats (response_format). Google gibt im Changelog an: „The Interactions API request and response schema (outputssteps) and output format configuration (response_format) are changing.”

Das neue Schema wird ab 20. Mai 2026 zum Standard, was Entwicklern zwei Wochen gibt, die Migration zu testen, bevor Clients automatisch umgestellt werden. Das alte Schema entfällt vollständig am 6. Juni 2026 — nach diesem Datum funktioniert alter Client-Code nicht mehr.

Was müssen Entwickler tun?

Teams, die das Interactions API verwenden, müssen ihre Parsing-Logik für Antworten aktualisieren und Verweise auf outputs-Felder im Code überprüfen. Google empfiehlt, den Migrationsleitfaden vor dem 20. Mai zu konsultieren, um Produktionsunterbrechungen zu vermeiden.

Für File-Search-Nutzer wird empfohlen, den Bildabruf zu überprüfen und sicherzustellen, dass die neuen Felder media_id und page_numbers in der Zitierungs-UI genutzt werden. Die multimodale Erweiterung ist abwärtskompatibel — bestehende Textsuchen funktionieren ohne Änderungen weiter.

Häufig gestellte Fragen

Was bringt die multimodale File-Search-Erweiterung?
File Search kann nun nativ Bilder einbetten und durchsuchen, und zwar mit dem Modell gemini-embedding-2. Grounding-Metadaten enthalten media_id für visuelle Zitierungen und page_numbers, die angeben, wo sich die Information in den Quelldokumenten befindet.
Wie ändert sich das Interactions API?
Das Schema benennt outputs in steps um, und auch die Konfiguration des Ausgabeformats (response_format) ändert sich. Das neue Schema wird ab 20. Mai 2026 zum Standard, das alte Schema entfällt vollständig am 6. Juni 2026.
Wie viel Zeit haben Entwickler für die Migration?
Ab 20. Mai 2026 ist das neue Schema Standard, das alte funktioniert jedoch noch bis 6. Juni 2026 — was etwa zwei Wochen Übergangszeit für Tests und Anpassung der Client-Implementierungen gibt.