Multimodalni model

Multimodalni model (multimodal model) je AI sustav koji unutar jedne arhitekture obrađuje i/ili generira više vrsta podataka — modaliteta — poput teksta, slika, audija i videa. Za razliku od modela ograničenog na samo jedan modalitet, multimodalni model može, primjerice, opisati sadržaj fotografije, odgovoriti na pitanje o grafikonu ili stvoriti sliku iz tekstualnog opisa.

Tehnički, svaki se modalitet pretvara u zajednički prostor reprezentacija (vidi embedding) tako da ih ista mreža može zajednički obrađivati. Suvremeni “izvorno multimodalni” modeli treniraju se na miješanim podacima od početka, najčešće na transformer arhitekturi, dok generiranje slika i videa često koristi difuzijske modele.

U razdoblju 2025-2026 multimodalnost je postala standard kod vodećih temeljnih modela — Gemini, GPT-4o, Claude i drugi prihvaćaju tekst, slike, dokumente, zvuk i video. To je ključan korak prema asistentima koji “vide” i “čuju”, a temelj je i agentskih sustava koji djeluju na stvarne, raznolike ulaze.

Izvori

Vidi također