Marco-MoE: open multilingual MoE, 5% aktivacije, 5T tokena

Marco-MoE je nova open-source obitelj sparse Mixture-of-Experts modela koje je 28. travnja 2026. objavio tim Jianga, Zhaoa i suradnika. Modeli aktiviraju samo oko 5% ukupnih parametara po tokenu, treninigirani su upcyclingom iz dense modela na 5 trilijuna tokena, a Instruct verzije nadmašuju dense konkurenciju s 3 do 14 puta više aktiviranih parametara. Težine, dataset i recipe su javno objavljeni.

Tim od osam istraživača (Fan Jiang, Yu Zhao, Chenyang Lyu, Tianqi Shi, Yichao Du, Feihu Jiang, Longyue Wang, Weihua Luo) objavio je 28. travnja 2026. preprint Marco-MoE: Open Multilingual Mixture-of-Expert Language Models with Efficient Upcycling. Riječ je o jednom od rijetkih u potpunosti otvorenih MoE modela — uključujući trening dataset, recipe i težine.

Što je sparse MoE?

Mixture-of-Experts (MoE) je arhitektura u kojoj model ima više “eksperata” — paralelnih MLP modula — od kojih router pri svakom tokenu aktivira samo nekolicinu. Marco-MoE ima ekstremno sparse dizajn u kojem se aktivira samo oko 5% ukupnih parametara po ulaznom tokenu, što omogućuje efikasno skaliranje ukupnog kapaciteta bez razmjernog rasta inference troška.

Upcycling kao trening recipe

Umjesto treninga od nule, autori koriste upcycling: postojeći dense modeli konvertiraju se u MoE kopiranjem MLP slojeva u eksperte i dodavanjem router mreže. Nakon toga slijedi 5 trilijuna tokena dodatne pre-train obuke. Dense modeli koji su poslužili kao seed nisu eksplicitno navedeni u abstractu, ali pristup je dokazan učinkovit u prijašnjim radovima (Mixtral, Qwen-MoE).

Marco-MoE-Instruct varijante, dobivene post-trainingom, nadmašuju modele s 3 do 14 puta više aktivnih parametara na engleskim i multilingual benchmarcima. Konkretni parametarski brojevi (npr. 7B aktivnih, 56B ukupno) nisu navedeni u dohvaćenom sažetku.

Što kažu o jezicima?

Najzanimljiviji dio analize: Marco-MoE uči strukturirane obrasce aktivacije eksperata zajedničke za srodne jezike, dok jezično izolirani jezici dobivaju visoko specijalizirane eksperte. Autori dokazuju da to omogućuje skalabilno proširenje jezika bez interferencije tipične za dense modele — što je za multilingual primjenu ozbiljno operativno svojstvo.

Zašto je objava važna?

Kineski timovi (Qwen, DeepSeek, Yi) su 2025-2026 zauzeli vodstvo u open-weight modelima, ali rijetki objavljuju kompletan stack — težine, dataset i recipe. Marco-MoE pripada toj rijetkoj kategoriji punog otvaranja, što istraživačkoj zajednici omogućuje neovisnu replikaciju i izgradnju derivatnih modela.

Česta pitanja

Što je 'upcycling' MoE modela?

Tehnika gdje se postojeći dense model konvertira u MoE arhitekturu kopiranjem MLP slojeva u eksperte i dodavanjem router mreže. Štedi se kompjut jer se ne trenira MoE od nule, a uspjeh dense modela se prenosi.

Što je javno objavljeno?

Kompletni training datasetovi, recipes (procedure i hiperparametri) te težine modela u base i Instruct varijantama. To omogućuje neovisnu replikaciju i fine-tuning na vlastitim domenama.

Kakve su jezične karakteristike?

Analiza pokazuje da Marco-MoE uči strukturirane obrasce aktivacije eksperata zajedničke za srodne jezike, dok jezično izolirani jezici dobivaju visoko specijalizirane eksperte. Omogućuje skalabilno proširenje jezika bez interferencije tipične za dense modele.

Marco-MoE: open-source multilingual MoE s 5% aktivnih parametara nadmašuje dense modele 3-14× veće aktivacije

Što je sparse MoE?

Upcycling kao trening recipe

Što kažu o jezicima?

Zašto je objava važna?

Česta pitanja

Izvori

Povezane vijesti