Vizualno-jezični model

AI model zajednički treniran na slikama i tekstu — "vidi" sliku i o njoj rasuđuje u prirodnom jeziku; temelj vizije u GPT-4o, Claudeu i Gemini.

Vizualno-jezični model (vision-language model, VLM) je AI sustav koji unutar jednog modela zajednički obrađuje slike i tekst. Za razliku od velikog jezičnog modela ograničenog na tekst, VLM može opisati fotografiju, odgovoriti na pitanje o grafikonu ili dijagramu te pročitati i protumačiti tekst na slici.

Tehnički, slika se kroz vizualni koder pretvori u niz vektorskih reprezentacija (vidi embedding) koje se umetnu u isti slijed tokena kao i tekst, pa ih transformer jezgra obrađuje zajednički. Model tako uči poveznice između onoga što “vidi” i onoga što izražava riječima, a izlaz je uobičajeno tekst — opis, odgovor ili analiza.

U razdoblju 2025-2026 vizualno-jezične sposobnosti postale su standard kod vodećih temeljnih modela: GPT-4o, Claude i Gemini izvorno primaju slike, dokumente i snimke zaslona. To je ključan korak prema asistentima koji “vide”, a temelj je i agentskih sustava koji djeluju na vizualne ulaze poput sučelja i tablica.

Vizualno-jezični model

Izvori

Vidi također