Google: Gemini API dobiva multimodalno File Search pretraživanje slika i breaking change u Interactions API-ju
Google je proširio Gemini File Search na multimodalno pretraživanje slika koristeći gemini-embedding-2 model, s media_id u grounding metadati za vizualne citacije. Istovremeno najavljuje breaking change u Interactions API-ju gdje outputs postaje steps, s novim defaultom 20.05.2026. i uklanjanjem stare scheme 06.06.2026.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Google je u Gemini API changelogu objavio dvije značajne promjene: proširenje File Search na multimodalno pretraživanje slika (6. svibnja 2026.) i breaking change u Interactions API-ju (7. svibnja 2026.). Obje promjene utječu na developere koji grade aplikacije nad Gemini stackom.
Što omogućuje multimodalno File Search?
File Search sada nativno embedira i pretražuje slike pomoću novog modela gemini-embedding-2. Time se ukida raniji model rada gdje su developeri morali odvojeno generirati embeddinge za vizualni sadržaj ili konvertirati slike u tekstualne opise.
Grounding metadata proširena je s dva nova polja: media_id koji omogućuje vizualne citacije (točno označavanje slike koja je doprinijela odgovoru) i page_numbers koji ukazuje na konkretne stranice unutar izvornog dokumenta. Kombinacija olakšava izgradnju RAG sustava nad PDF-ovima i drugim dokumentima koji miješaju tekst i slike.
Što se mijenja u Interactions API-ju?
Riječ je o breaking changeu u shemi zahtjeva i odgovora. Polje outputs preimenuje se u steps, a istovremeno se mijenja i konfiguracija formata izlaza (response_format). Google u changelogu navodi: “The Interactions API request and response schema (outputs → steps) and output format configuration (response_format) are changing.”
Nova shema postaje default 20. svibnja 2026., što daje developerima dva tjedna za testiranje migracije prije nego što se klijenti automatski prebace. Stara shema potpuno odlazi 6. lipnja 2026. — nakon tog datuma stari klijentski kod više neće raditi.
Što developeri trebaju napraviti?
Tim koji koristi Interactions API mora ažurirati parsing logiku za odgovore i provjeriti reference na outputs polja u svojem kodu. Google preporučuje konzultiranje migracijskog vodiča prije 20. svibnja kako bi izbjegli prekide u produkciji.
Za File Search korisnike preporuka je revizija dohvata slika i provjera koriste li se nova media_id i page_numbers polja u UI-ju citacija. Multimodalno proširenje je backward-compatible — postojeće tekstualne pretrage nastavljaju raditi bez izmjena.
Česta pitanja
- Što donosi multimodalno File Search proširenje?
- File Search sada može nativno embedirati i pretraživati slike koristeći gemini-embedding-2 model. Grounding metadata uključuje media_id za vizualne citacije i page_numbers koji označavaju gdje se informacija nalazi u izvornim dokumentima.
- Kako će se promijeniti Interactions API?
- Schema mijenja `outputs` u `steps`, a mijenja se i konfiguracija output formata (`response_format`). Nova schema postaje default 20. svibnja 2026., dok stara schema potpuno odlazi 6. lipnja 2026.
- Koliko vremena imaju developeri za migraciju?
- Od 20. svibnja 2026. nova shema je default, ali stara nastavlja raditi do 6. lipnja 2026. — što daje cca dva tjedna prijelaznog razdoblja za testiranje i prilagodbu klijentskih implementacija.
Izvori
Povezane vijesti
arXiv:2605.03195: Terminus-4B — 4 milijarde parametara za terminal execution izjednačava Claude Opus i GPT-5.3-Codex na SWE-Bench Pro uz ~30 % niže tokene glavnog agenta
arXiv:2605.04908: Gosset s kuriranom farmaceutskom bazom nadmašuje frontier LLM-ove 3,2 puta
arXiv:2605.03871: EvoLM — jezični modeli koji se sami poboljšavaju bez vanjske supervizije