🤖 24 AI
🟡 🤖 Modeli nedjelja, 19. travnja 2026. · 2 min čitanja

YAN: Mixture-of-Experts Flow Matching postiže 40× ubrzanje nad autoregresivnim LM-ovima uz samo 3 sampling koraka

Editorial ilustracija: apstraktno vektorsko polje i paralelni strujni tokovi generativnog modela

Zašto je bitno

YAN je novi generativni jezični model koji kombinira Transformer i Mamba arhitekturu s Mixture-of-Experts Flow Matching pristupom — postiže kvalitetu usporedivu s autoregresivnim modelima uz 3 sampling koraka, što daje 40× ubrzanje nad AR baznim linijama i do 1000× ubrzanje nad difuzijskim jezičnim modelima. Model dekomponira globalne transportne geometrije u lokalno specijalizirana vektorska polja.

Što je YAN i čime se bavi?

YAN je novi jezični model predstavljen u radu “Towards Faster Language Model Inference via MoE Flow Matching” koji kombinira dvije arhitekture: Transformer (standardna pažnja-bazirana) i Mamba (state-space model s linearnim skaliranjem). Ovaj hibrid pokreće Mixture-of-Experts (MoE) Flow Matching framework — pristup generativnom modeliranju u kojem model ne generira token po token autoregresivno, već uči transportno vektorsko polje koje paralelno pretvara šum u smisleni tekst.

Ključna inovacija je dekompozicija: umjesto jednog globalnog tokovnog polja, YAN uči više lokalno specijaliziranih vektorskih polja preko MoE mehanizma. Svaki ekspert pokriva užu geometrijsku regiju latentnog prostora, što rješava problem anizotropnih (smjerno ovisnih) i multimodalnih distribucija koji muče standardne flow matching modele kod jezika.

Kolika je stvarno ušteda?

Brojke su dramatične:

  • 40× ubrzanje u odnosu na autoregresivne (AR) bazne linije iste veličine
  • do 1000× ubrzanje u odnosu na difuzijske jezične modele
  • Samo 3 sampling koraka umjesto stotina u difuzijskim LM-ovima
  • Kvaliteta usporediva s AR modelima (prema autorovoj evaluaciji)

Za kontekst, standardni autoregresivni LLM generira jedan token po jednom forward prolazu kroz cijeli model. YAN generira cijele sekvence u 3 paralelna koraka — što u teoriji znači da batch veličine mogu eksplozivno rasti bez linearnog rasta latencije.

Zašto bi to moglo biti važno?

Autoregresivna paradigma zadnjih sedam godina dominira jezičnim modeliranjem jer je, unatoč sporoj inferenciji, najlakše trenirati na dostupnim GPU klasterima. Difuzijski LM-ovi (poput Mercury ili LLaDA) obećavaju paralelizam, ali stotine sampling koraka i dalje ih čine nepraktičnim.

YAN-ov pristup — flow matching s lokalno specijaliziranim MoE eksperima — mogao bi biti treći put koji zadržava brzinu difuzije uz manji broj koraka. Ako se rezultati repliciraju na većoj skali, otvorena je vrata generaciji modela gdje se latencija inferencije izračunava u milisekundama po odgovoru, ne sekundama.

Što treba dokazati?

Autor Aihua Li predstavlja rad kao preprint na arXivu bez eksplicitno navedene peer-review publikacije. Glavne otvorene stavke:

  • Skaliranje: Radi li se o demonstraciji na manjim modelima (do nekoliko milijardi parametara), ili su rezultati robusni i na 70B+ modelima?
  • Zadatak složenost: Postiže li YAN kvalitetu AR modela na složenim zadacima razsuđivanja i dugih konteksta, ne samo na generaciji kraćih sekvenci?
  • Otvoreni kod: Ako autor objavi implementaciju, vrlo će brzo postati jasan popriličan dio ovih pitanja.

Za sad, YAN je teoretski intrigantan signal da autoregresivna paradigma ima ozbiljnu konkurenciju.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.