Marco-MoE：オープン多言語MoE、5%活性化、5Tトークン

Marco-MoEは、JiangとZhaoらのチームが2026年4月28日に発表した新しいオープンソースのスパースMixture-of-Expertsモデルファミリーです。各トークンで総パラメータの約5%のみを有効化し、DenseモデルからUpcyclingで5兆トークン訓練されています。Instruct版はアクティブパラメータが3〜14倍多いDense競合モデルを上回り、重み・データセット・レシピはすべて公開されています。

8名の研究者（Fan Jiang、Yu Zhao、Chenyang Lyu、Tianqi Shi、Yichao Du、Feihu Jiang、Longyue Wang、Weihua Luo）は2026年4月28日、Marco-MoE：効率的なUpcyclingによるオープン多言語MoE言語モデルのプレプリントを発表しました。これは訓練データセット・レシピ・重みを含む完全オープンな数少ないMoEモデルの一つです。

スパースMoEとは？

Mixture-of-Experts（MoE）は、複数の「エキスパート」——並列MLPモジュール——を持つアーキテクチャで、ルーターが各トークンでそのうちの少数だけを有効化します。Marco-MoEは極めてスパースな設計を採用し、入力トークンごとに総パラメータの約5%のみを有効化します。これにより推論コストを比例して増やすことなく、総容量を効率的にスケールアップできます。

訓練レシピとしてのUpcycling

ゼロから訓練する代わりに、著者らはUpcyclingを使用します：既存のDenseモデルをMLPレイヤーをエキスパートにコピーしてルーターネットワークを追加することでMoEアーキテクチャに変換します。その後、5兆トークンの追加事前訓練を行います。シードとして使用したDenseモデルはアブストラクトには明記されていませんが、このアプローチは先行研究（Mixtral、Qwen-MoE）で有効性が証明されています。

ポストトレーニングによって得られたMarco-MoE-Instructバリアントは、英語および多言語ベンチマークでアクティブパラメータが3〜14倍多いモデルを上回ります。具体的なパラメータ数（例：アクティブ7B、総計56B）は取得したアブストラクトには記載されていません。

言語特性について

分析の最も興味深い部分：Marco-MoEは関連する言語に共通する構造化されたエキスパート活性化パターンを学習し、言語的に孤立した言語は高度に専門化されたエキスパートを持ちます。著者らはこれにより、Denseモデルに典型的な干渉なしにスケーラブルな言語拡張が可能であることを示しています——これは多言語利用において重要な運用特性です。

公開の重要性

中国のチーム（Qwen、DeepSeek、Yi）は2025〜2026年にオープン重みモデルでリードしていますが、完全なスタック——重み・データセット・レシピ——を公開するチームは稀です。Marco-MoEはそのような完全公開の稀なケースに属し、研究コミュニティが独立した再現と派生モデルの構築を行えるようにしています。

よくある質問

MoEモデルの「Upcycling」とは何ですか？

既存のDenseモデルをMoEアーキテクチャに変換する技術で、MLPレイヤーをエキスパートにコピーしてルーターネットワークを追加します。MoEをゼロから訓練する必要がなく計算資源を節約でき、DenseモデルのパフォーマンスがMoEに引き継がれます。

公開されているのはどのようなものですか？

完全な訓練データセット、レシピ（手順とハイパーパラメータ）、ベースとInstructバリアントの両モデルの重みです。独立した再現や独自ドメインでのファインチューニングが可能です。

言語的な特性はどうですか？

分析によれば、Marco-MoEは関連する言語に共通する構造化されたエキスパート活性化パターンを学習し、言語的に孤立した言語は高度に専門化されたエキスパートを持ちます。これにより、Denseモデルに典型的な干渉なしにスケーラブルな言語拡張が可能です。

Marco-MoE：パラメータの5%のみ有効化するオープンソース多言語MoEが、3〜14倍のアクティブパラメータを持つDenseモデルを上回る

スパースMoEとは？

訓練レシピとしてのUpcycling

言語特性について

公開の重要性

よくある質問

出典

関連ニュース