🤖 24 AI
🟢 🤖 Modeli četvrtak, 23. travnja 2026. · 3 min čitanja

Apple predstavio MANZANO — unificirani multimodalni model koji balansira razumijevanje i generiranje slika

Editorial illustration: AI model — modeli

Zašto je bitno

Appleova istraživačka grupa na konferenciji ICLR 2026 predstavila je MANZANO, unificirani multimodalni framework koji rješava dugogodišnji trade-off između sposobnosti razumijevanja slika i kvalitete generiranja slika. Model koristi hibridni vision tokenizer koji proizvodi kontinuirane embeddinge za razumijevanje i diskretne tokene za generiranje, zajednički encoder i dva specijalizirana adaptera, čime smanjuje gubitak koji se inače javlja kada jedan model pokušava raditi oba zadatka.

Problem trade-offa u multimodalnim modelima

Multimodalni modeli koji istovremeno razumiju i generiraju slike već godinama pate od fundamentalnog trade-offa. Sustavi optimirani za razumijevanje slika, tipično oslonjeni na kontinuirane embeddinge, izvrsno opisuju sadržaj ali teško generiraju nove slike. Nasuprot tome, modeli koji dobro generiraju slike obično koriste diskretne tokene i autoregresivnu arhitekturu koja se bori s detaljnim opisivanjem. Spojiti oba svijeta u jedan model do sada je značilo žrtvovati kvalitetu na barem jednoj strani.

Na konferenciji ICLR 2026, čiji je program objavio Apple Machine Learning Research, Appleov tim predstavio je MANZANO — framework koji pokušava zatvoriti taj jaz. Prema objavi, MANZANO nudi unificiranu arhitekturu koja istovremeno balansira razumijevanje i generiranje slika unutar jednog modela, bez potrebe za odvojenim sustavima za svaku zadaću.

Hibridni vision tokenizer i dual adapteri

Ključna tehnička inovacija MANZANA je hibridni vision tokenizer. Umjesto da model nudi isključivo kontinuirane embeddinge, koje preferiraju modeli za razumijevanje, ili isključivo diskretne tokene, koje preferiraju generativni modeli, tokenizer proizvodi obje reprezentacije iz istog ulaznog signala. Kontinuirani embeddingi koriste se kao bogat semantički ulaz za razumijevanje slike, dok se diskretni tokeni koriste u autoregresivnom dekodiranju tijekom generiranja.

Iznad tog zajedničkog encodera MANZANO koristi dva specijalizirana adaptera — po jedan za svaki tip zadatka. Takav pristup, koji Apple u objavi opisuje kao „zajednički encoder, dual adapteri”, znači da model dijeli većinu parametara i reprezentacija, ali na vrhu ima specijalizirane glave koje se treniraju za različite ciljeve. Rezultat je, prema tvrdnjama autora, smanjenje trade-offa između dvije zadaće u usporedbi s postojećim unificiranim pristupima.

Zašto je to važno

Ako se rezultati potvrde u široj praksi i neovisnim benchmarkovima, MANZANO ima potencijal promijeniti način na koji se grade multimodalne aplikacije. Developeri danas često kombiniraju dva odvojena modela — primjerice Claude ili GPT-4V za razumijevanje i Stable Diffusion ili Flux za generiranje — što znači dvostruke troškove posluživanja, složeniji pipeline i teže održavanje. Unificirani model kao MANZANO omogućuje da isti sustav prati razgovor, razumije priloženu sliku i generira novu, bez prebacivanja konteksta između modela.

Takva arhitektura posebno otvara vrata interaktivnim scenarijima poput uređivanja slika kroz razgovor, gdje korisnik opisuje željene izmjene u prirodnom jeziku, a model razumije i sliku i uputu i generira novu verziju. Apple nije objavio težine MANZANA niti najavio kada će se značajka pojaviti u proizvodima, ali objava na ICLR-u signalizira smjer Appleova istraživačkog rada i potencijal za integraciju u buduće verzije Siri, Final Cut Pro ili generativnih alata u iOS-u. Za širu zajednicu, MANZANO je vrijedna referentna točka koja pokazuje da unifikacija razumijevanja i generiranja ne mora nužno značiti gubitak kvalitete.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.