Allen Institute: EMO — MoE jezični model s prirodnom semantičkom modularnošću iz podataka
EMO je novi MoE jezični model Allen Institutea s 1B aktivnih i 14B ukupnih parametara, treniran na 1 trilion tokena. Eksperti se sami organiziraju u semantičke domene — uz 25% aktivnih eksperata gubitak performansi je svega 1%.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Allen Institute for AI (Ai2) objavio je 8. svibnja 2026. EMO — sparse Mixture-of-Experts (MoE) jezični model koji bez ručnih oznaka razvija prirodnu semantičku modularnost među svojim ekspertima. Model ima 1 milijardu aktivnih i 14 milijardi ukupnih parametara, sa 128 eksperata od kojih je 8 aktivnih po tokenu, a treniran je na 1 trilion tokena.
Kako EMO postiže emergentnu modularnost?
EMO koristi granice dokumenata kao slabi nadzorni signal: svi tokeni unutar istog dokumenta moraju birati aktivne eksperte iz zajedničkog poola. Ova jednostavna restrikcija dovoljna je da se eksperti tijekom treninga sami organiziraju u koherentne grupe koje se mogu selektivno koristiti i kombinirati. MoE (Mixture of Experts) je arhitektura u kojoj se za svaki token aktivira samo podskup od svih dostupnih ekspertskih mreža, što omogućuje veliki kapacitet uz manji računalni trošak.
Što pokazuju rezultati pruning eksperimenata?
Kad se aktivira samo 25% eksperata (32 od 128), EMO gubi svega ~1% apsolutne performanse, dok pri korištenju 12.5% eksperata (16 od 128) pad iznosi oko 3%. Standardni MoE modeli u istim uvjetima dramatično degradiraju, što sugerira da EMO ima funkcionalno odvojene ekspertne podskupine koje pokrivaju različite tematske cjeline.
U koje se domene grupiraju eksperti?
Vizualizacija ekspertne aktivacije pokazuje klastere koji odgovaraju semantičkim domenama: “Health, Medical & Wellness”, “News Reporting”, “US Politics & Elections”, “Film & Music”. Standardni MoE umjesto toga grupira tokene po površinskoj sintaksi — prijedlozi, određeni članovi i interpunkcija razasuti su po klasterima.
Što je dostupno javno?
Ai2 je objavio puni EMO model i usporedni standardni MoE baseline na Hugging Faceu, kod za treniranje na GitHubu te interaktivni vizualizator (emovisualization.netlify.app) koji omogućuje istraživanje aktivacije eksperata po domenama u stvarnom vremenu.
Česta pitanja
- Što je EMO i po čemu se razlikuje od standardnih MoE modela?
- EMO je sparse Mixture-of-Experts jezični model koji bez ručnih oznaka razvija semantičku modularnost — eksperti se klasteriraju oko domena poput medicine ili politike, dok standardni MoE modeli grupiraju tokene po površinskoj sintaksi.
- Koliko parametara i koliko eksperata ima EMO?
- Model ima 1 milijardu aktivnih i 14 milijardi ukupnih parametara, sa 128 eksperata od kojih je 8 aktivnih po tokenu. Treniran je na 1 trilion tokena.
- Što je objavljeno javno?
- Ai2 je objavio puni EMO model na Hugging Faceu, usporedni standardni MoE baseline, kod za treniranje na GitHubu i interaktivni vizualizator na emovisualization.netlify.app.
Povezane vijesti
Google: Gemini 3.1 Flash-Lite ulazi u opću dostupnost
OpenAI: tri nova realtime voice modela u API-ju s rezoniranjem i prevođenjem
arXiv:2605.03195: Terminus-4B — 4 milijarde parametara za terminal execution izjednačava Claude Opus i GPT-5.3-Codex na SWE-Bench Pro uz ~30 % niže tokene glavnog agenta