Google: Gemini API File Search proširen na multimodalnu pretragu slika i teksta
Google je proširio File Search u Gemini API-ju na multimodalnu pretragu, omogućivši nativno embeddanje i dohvat slika uz tekstualne dokumente kroz model gemini-embedding-2. Dodana su dva nova grounding polja te event-driven webhook podrška za Batch API.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što je Google objavio?
Google je u Gemini API-ju proširio značajku File Search na multimodalnu pretragu. Dosad ograničena na tekst, sada omogućuje nativno embeddanje i dohvat slika uz klasične tekstualne dokumente, koristeći model gemini-embedding-2.
Embedding je vektorska reprezentacija sadržaja koja omogućuje semantičku usporedbu, dok grounding znači povezivanje odgovora s konkretnim izvorom.
Što donose nova grounding polja?
Update uvodi dva nova metapodatka u rezultate File Searcha:
media_id— identifikator za vizualne citate, koji omogućuje da se referenca u odgovoru poveže s točnom slikom.page_numbers— broj stranice za dokumente, što olakšava praćenje pozicije izvora unutar PDF-ova ili višestraničnih datoteka.
Razvojnim timovima to znači da RAG aplikacije sada mogu jednako prirodno citirati sliku iz tehničke dokumentacije kao i tekstualni odlomak.
Što novo donosi webhook podrška?
Paralelno s File Searchom, Google je 4. svibnja u Gemini API uveo event-driven webhook podršku. Zamjenjuje tradicionalne polling workflowove za Batch API operacije i druge dugotrajne procese.
Umjesto da klijent svakih nekoliko sekundi pita “je li gotovo?”, Gemini sam šalje HTTP poziv na konfigurirani URL kad se status promijeni. Time se smanjuje opterećenje na klijentskoj strani i kašnjenje u obavještavanju.
Zašto je ovo važno?
Multimodalni File Search uklanja potrebu za zasebnim pipelineima za slike i tekst — jedan vektorski prostor pokriva oboje. To je važno za enterprise scenarije kao što su pretraga produktnih kataloga, medicinske dokumentacije ili tehničkih priručnika sa shemama.
Webhook podrška, s druge strane, modernizira integraciju za batch procese i čini Gemini API kompatibilnijim s event-driven arhitekturama.
Česta pitanja
- Koji model pokreće multimodalni File Search?
- Gemini-embedding-2 model koji nativno embedda slike i tekst u zajednički vektorski prostor.
- Koja su nova grounding polja?
- media_id za vizualne citate i page_numbers za praćenje pozicije unutar dokumenta.
- Što donose webhook-ovi?
- Zamjenjuju polling workflowove za Batch API i druge dugotrajne procese, smanjujući opterećenje klijenta.
Povezane vijesti
Microsoft Research: DroidSpeak dijeli KV cache između fine-tuned LLM varijanti za 4× veći throughput
OpenAI: GPT-5.5 Instant postaje novi default model u ChatGPT-u s manje halucinacija
ArXiv AgentFloor: mali open-weight modeli (0,27B-32B) zadovoljavaju kratkoročne agentne zadatke, GPT-5 zadržava prednost samo u dugoročnom planiranju