Allen Institute: EMO――データから自然なセマンティック・モジュール性を持つMoE言語モデル
EMOはAllen Instituteによる新しいMoE言語モデルで、10億のアクティブパラメータと140億の総パラメータを持ち、1兆トークンで訓練されています。エキスパートは意味的なドメインに自己組織化され、アクティブなエキスパートを25%にしてもパフォーマンスの低下はわずか1%です。
この記事はAIにより一次情報源から生成されました。
Allen Institute for AI(Ai2)は2026年5月8日、EMO——手動ラベル付けなしで自然な意味的モジュール性を発展させるスパースMixture-of-Experts(MoE)言語モデル——を発表しました。モデルは10億のアクティブパラメータと140億の総パラメータを持ち、128のエキスパートのうちトークンごとに8つがアクティブになり、1兆トークンで訓練されています。
EMOはどのように創発的モジュール性を実現しますか?
EMOはドキュメントの境界を弱い監視シグナルとして使用します。同一ドキュメント内のすべてのトークンは共有プールからアクティブなエキスパートを選択しなければなりません。このシンプルな制約だけで、訓練中にエキスパートが選択的に使用・組み合わせ可能なコヒーレントなグループに自己組織化するには十分です。MoE(Mixture of Experts)は、各トークンに対して利用可能なすべてのエキスパートネットワークのサブセットのみをアクティブにするアーキテクチャで、低い計算コストで大きなキャパシティを実現します。
プルーニング実験の結果は?
エキスパートの25%のみ(128個中32個)をアクティブにした場合、EMOの絶対的なパフォーマンス低下はわずか約1%で、12.5%のエキスパート(128個中16個)では約3%の低下に留まります。標準的なMoEモデルは同じ条件で大幅に劣化し、EMOが異なるトピック領域をカバーする機能的に分離されたエキスパートサブセットを持つことを示唆しています。
エキスパートはどのようなドメインにグループ化されますか?
エキスパート活性化の可視化は、「ヘルス・医学・ウェルネス」「ニュース報道」「米国政治・選挙」「映画・音楽」といった意味的ドメインに対応するクラスターを示します。標準的なMoEはこれと異なり、前置詞・冠詞・句読点が各クラスターに散在する表面的な構文でトークンをグループ化します。
公開されているリソースは?
Ai2はHugging FaceにEMOモデル全体と比較用標準MoEベースラインを、GitHubにトレーニングコードを公開し、ドメインごとのエキスパート活性化をリアルタイムで探索できるインタラクティブビジュアライザー(emovisualization.netlify.app)も提供しています。
よくある質問
- EMOとは何ですか?標準的なMoEモデルとどう違いますか?
- EMOは、手動のラベル付けなしで意味的モジュール性を発展させるスパースMixture-of-Experts言語モデルです。エキスパートは医学や政治などのドメインを中心にクラスタリングされますが、標準的なMoEモデルは表面的な構文でトークンをグループ化します。
- EMOのパラメータ数とエキスパート数は?
- モデルは10億のアクティブパラメータと140億の総パラメータを持ち、128のエキスパートのうちトークンごとに8つがアクティブになります。1兆トークンで訓練されています。
- 公開されているものは何ですか?
- Ai2はHugging FaceにEMOモデル全体と比較用標準MoEベースライン、GitHubにトレーニングコード、emovisualization.netlify.appにリアルタイムでドメインごとのエキスパート活性化を探索できるインタラクティブビジュアライザーを公開しました。