Što je Flow Matching?

Flow Matching (podudaranje tokova) je metoda generativnog modeliranja koja direktno uči vektorsko polje koje preslikava jednu distribuciju u drugu, slično difuzijskim modelima ali s manje koraka integracije.

Zašto je YAN brži od difuzijskih LM-ova?

Jer dekomponira globalni transport u specijalizirane eksperte (MoE) i time smanjuje broj potrebnih koraka integracije na svega 3, dok difuzijski LM-ovi obično traže stotine koraka.

YAN: Mixture-of-Experts Flow Matching postiže 40× ubrzanje nad autoregresivnim LM-ovima uz samo 3 sampling koraka

Što je YAN i čime se bavi?

YAN je novi jezični model predstavljen u radu “Towards Faster Language Model Inference via MoE Flow Matching” koji kombinira dvije arhitekture: Transformer (standardna pažnja-bazirana) i Mamba (state-space model s linearnim skaliranjem). Ovaj hibrid pokreće Mixture-of-Experts (MoE) Flow Matching framework — pristup generativnom modeliranju u kojem model ne generira token po token autoregresivno, već uči transportno vektorsko polje koje paralelno pretvara šum u smisleni tekst.

Ključna inovacija je dekompozicija: umjesto jednog globalnog tokovnog polja, YAN uči više lokalno specijaliziranih vektorskih polja preko MoE mehanizma. Svaki ekspert pokriva užu geometrijsku regiju latentnog prostora, što rješava problem anizotropnih (smjerno ovisnih) i multimodalnih distribucija koji muče standardne flow matching modele kod jezika.

Kolika je stvarno ušteda?

Brojke su dramatične:

40× ubrzanje u odnosu na autoregresivne (AR) bazne linije iste veličine
do 1000× ubrzanje u odnosu na difuzijske jezične modele
Samo 3 sampling koraka umjesto stotina u difuzijskim LM-ovima
Kvaliteta usporediva s AR modelima (prema autorovoj evaluaciji)

Za kontekst, standardni autoregresivni LLM generira jedan token po jednom forward prolazu kroz cijeli model. YAN generira cijele sekvence u 3 paralelna koraka — što u teoriji znači da batch veličine mogu eksplozivno rasti bez linearnog rasta latencije.

Zašto bi to moglo biti važno?

Autoregresivna paradigma zadnjih sedam godina dominira jezičnim modeliranjem jer je, unatoč sporoj inferenciji, najlakše trenirati na dostupnim GPU klasterima. Difuzijski LM-ovi (poput Mercury ili LLaDA) obećavaju paralelizam, ali stotine sampling koraka i dalje ih čine nepraktičnim.

YAN-ov pristup — flow matching s lokalno specijaliziranim MoE eksperima — mogao bi biti treći put koji zadržava brzinu difuzije uz manji broj koraka. Ako se rezultati repliciraju na većoj skali, otvorena je vrata generaciji modela gdje se latencija inferencije izračunava u milisekundama po odgovoru, ne sekundama.

Što treba dokazati?

Autor Aihua Li predstavlja rad kao preprint na arXivu bez eksplicitno navedene peer-review publikacije. Glavne otvorene stavke:

Skaliranje: Radi li se o demonstraciji na manjim modelima (do nekoliko milijardi parametara), ili su rezultati robusni i na 70B+ modelima?
Zadatak složenost: Postiže li YAN kvalitetu AR modela na složenim zadacima razsuđivanja i dugih konteksta, ne samo na generaciji kraćih sekvenci?
Otvoreni kod: Ako autor objavi implementaciju, vrlo će brzo postati jasan popriličan dio ovih pitanja.

Za sad, YAN je teoretski intrigantan signal da autoregresivna paradigma ima ozbiljnu konkurenciju.

YAN: Mixture-of-Experts Flow Matching postiže 40× ubrzanje nad autoregresivnim LM-ovima uz samo 3 sampling koraka

Što je YAN i čime se bavi?

Kolika je stvarno ušteda?

Zašto bi to moglo biti važno?

Što treba dokazati?

Izvori

Povezane vijesti