Allen Institute EMO: MoE s emergentnom modularnošću

EMO je novi MoE jezični model Allen Institutea s 1B aktivnih i 14B ukupnih parametara, treniran na 1 trilion tokena. Eksperti se sami organiziraju u semantičke domene — uz 25% aktivnih eksperata gubitak performansi je svega 1%.

Allen Institute for AI (Ai2) objavio je 8. svibnja 2026. EMO — sparse Mixture-of-Experts (MoE) jezični model koji bez ručnih oznaka razvija prirodnu semantičku modularnost među svojim ekspertima. Model ima 1 milijardu aktivnih i 14 milijardi ukupnih parametara, sa 128 eksperata od kojih je 8 aktivnih po tokenu, a treniran je na 1 trilion tokena.

Kako EMO postiže emergentnu modularnost?

EMO koristi granice dokumenata kao slabi nadzorni signal: svi tokeni unutar istog dokumenta moraju birati aktivne eksperte iz zajedničkog poola. Ova jednostavna restrikcija dovoljna je da se eksperti tijekom treninga sami organiziraju u koherentne grupe koje se mogu selektivno koristiti i kombinirati. MoE (Mixture of Experts) je arhitektura u kojoj se za svaki token aktivira samo podskup od svih dostupnih ekspertskih mreža, što omogućuje veliki kapacitet uz manji računalni trošak.

Što pokazuju rezultati pruning eksperimenata?

Kad se aktivira samo 25% eksperata (32 od 128), EMO gubi svega ~1% apsolutne performanse, dok pri korištenju 12.5% eksperata (16 od 128) pad iznosi oko 3%. Standardni MoE modeli u istim uvjetima dramatično degradiraju, što sugerira da EMO ima funkcionalno odvojene ekspertne podskupine koje pokrivaju različite tematske cjeline.

U koje se domene grupiraju eksperti?

Vizualizacija ekspertne aktivacije pokazuje klastere koji odgovaraju semantičkim domenama: “Health, Medical & Wellness”, “News Reporting”, “US Politics & Elections”, “Film & Music”. Standardni MoE umjesto toga grupira tokene po površinskoj sintaksi — prijedlozi, određeni članovi i interpunkcija razasuti su po klasterima.

Što je dostupno javno?

Ai2 je objavio puni EMO model i usporedni standardni MoE baseline na Hugging Faceu, kod za treniranje na GitHubu te interaktivni vizualizator (emovisualization.netlify.app) koji omogućuje istraživanje aktivacije eksperata po domenama u stvarnom vremenu.

Česta pitanja

Što je EMO i po čemu se razlikuje od standardnih MoE modela?

EMO je sparse Mixture-of-Experts jezični model koji bez ručnih oznaka razvija semantičku modularnost — eksperti se klasteriraju oko domena poput medicine ili politike, dok standardni MoE modeli grupiraju tokene po površinskoj sintaksi.

Koliko parametara i koliko eksperata ima EMO?

Model ima 1 milijardu aktivnih i 14 milijardi ukupnih parametara, sa 128 eksperata od kojih je 8 aktivnih po tokenu. Treniran je na 1 trilion tokena.

Što je objavljeno javno?

Ai2 je objavio puni EMO model na Hugging Faceu, usporedni standardni MoE baseline, kod za treniranje na GitHubu i interaktivni vizualizator na emovisualization.netlify.app.

Allen Institute: EMO — MoE jezični model s prirodnom semantičkom modularnošću iz podataka

Kako EMO postiže emergentnu modularnost?

Što pokazuju rezultati pruning eksperimenata?

U koje se domene grupiraju eksperti?

Što je dostupno javno?

Česta pitanja

Izvori

Povezane vijesti