Google: Gemini-API-Dateisuche auf multimodale Bild- und Textsuche erweitert
Google hat die Dateisuche in der Gemini API auf multimodale Suche erweitert und ermöglicht damit die native Einbettung und den Abruf von Bildern neben Textdokumenten über das Modell gemini-embedding-2. Hinzugekommen sind zwei neue Grounding-Felder und ereignisgesteuerte Webhook-Unterstützung für die Batch API.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Was hat Google angekündigt?
Google hat in der Gemini API die Funktion Dateisuche auf multimodale Suche erweitert. Zuvor auf Text beschränkt, ermöglicht sie nun das native Einbetten und Abrufen von Bildern neben klassischen Textdokumenten mithilfe des Modells gemini-embedding-2.
Embedding ist eine Vektordarstellung von Inhalten, die semantischen Vergleich ermöglicht; Grounding bedeutet, eine Antwort mit einer konkreten Quelle zu verknüpfen.
Was bringen die neuen Grounding-Felder?
Das Update führt zwei neue Metadatenfelder in den Dateisuche-Ergebnissen ein:
media_id— ein Bezeichner für visuelle Zitate, der es ermöglicht, einen Verweis in der Antwort mit dem genauen Bild zu verknüpfen.page_numbers— die Seitenzahl für Dokumente, was die Positionsverfolgung innerhalb von PDFs oder mehrseitigen Dateien erleichtert.
Für Entwicklerteams bedeutet das, dass RAG-Anwendungen ein Bild aus technischer Dokumentation nun genauso natürlich zitieren können wie einen Textabschnitt.
Was bringt die Webhook-Unterstützung?
Parallel zur Dateisuche hat Google am 4. Mai ereignisgesteuerte Webhook-Unterstützung in der Gemini API eingeführt. Sie ersetzt traditionelle Polling-Workflows für Batch-API-Operationen und andere lang laufende Prozesse.
Anstatt dass der Client alle paar Sekunden fragt „Ist es fertig?”, sendet Gemini selbst einen HTTP-Aufruf an die konfigurierte URL, sobald sich der Status ändert — das reduziert Client-seitigen Aufwand und Benachrichtigungslatenz.
Warum ist das wichtig?
Multimodale Dateisuche beseitigt die Notwendigkeit separater Pipelines für Bilder und Text — ein Vektorraum deckt beides ab. Das ist wertvoll für Enterprise-Szenarien wie die Suche in Produktkatalogen, medizinischer Dokumentation oder technischen Handbüchern mit Diagrammen.
Webhook-Unterstützung modernisiert unterdessen die Integration für Batch-Prozesse und macht die Gemini API kompatibler mit ereignisgesteuerten Architekturen.
Häufig gestellte Fragen
- Welches Modell treibt die multimodale Dateisuche an?
- Das Modell gemini-embedding-2, das Bilder und Text nativ in einen gemeinsamen Vektorraum einbettet.
- Was sind die neuen Grounding-Felder?
- media_id für visuelle Zitate und page_numbers zur Positionsverfolgung innerhalb eines Dokuments.
- Was bringen Webhooks?
- Sie ersetzen Polling-Workflows für die Batch API und andere lang laufende Prozesse und reduzieren den Client-seitigen Aufwand.
Verwandte Nachrichten
Microsoft Research: DroidSpeak teilt KV-Cache zwischen feinabgestimmten LLM-Varianten für 4× höheren Durchsatz
OpenAI: GPT-5.5 Instant wird neues Standard-ChatGPT-Modell mit weniger Halluzinationen
ArXiv AgentFloor: Kleine Open-Weight-Modelle (0,27B–32B) reichen für kurzfristige Agenten-Aufgaben aus; GPT-5 behält Vorteil nur bei langfristiger Planung