モデル
エキスパート混合 (MoE)
各入力に対してパラメータの一部のみを活性化するニューラルネットワークアーキテクチャです。推論コストを大幅に抑えながら、はるかに大規模なモデルに匹敵する能力を発揮します。
**エキスパート混合(MoE、Mixture of Experts)**モデルは、多数の「エキスパート」サブネットワークと、各トークンをどのエキスパートに処理させるかを決定する学習済みルーターで構成されています。任意の入力に対して、一部のエキスパートのみが活性化され(典型的には8中2、64中8など)、残りは休眠状態を保ちます。これにより、膨大な密なモデルに匹敵するパラメータ数と容量を持ちながら、はるかに小さなモデルに相当する計算コストで処理できます。
なぜ重要なのか:密なトランスフォーマーのスケーリングには限界があり、モデルが大きくなるほど実行コストが膨大になります。MoEは総パラメータ数とトークンあたりの活性化パラメータ数の結びつきを断ち切り、推論コストを比例増させることなく容量を拡張できるようにします。
主要なMoEモデル:
- Mixtral 8x7B・8x22B(Mistral AI、オープンウェイト)
- DeepSeek-V3 / DeepSeek-R1(総671B、活性化〜37B)
- Llama 4シリーズ(Meta、2025年よりMoE採用)
- GPT-4 / GPT-5 — MoEと推測されるが公式未確認
- Qwen MoEシリーズ(Alibaba)
トレードオフとして、MoEの訓練は複雑で(負荷分散、エキスパート崩壊の問題)、推論サーバーはより高いピークメモリを必要とし(すべてのエキスパートをメモリに収める必要がある)、すべてのワークロードで同等の恩恵を受けられるわけではありません。2026年までに、MoEはトップクラスのオープンウェイトおよびクローズドフロンティアモデルにおけるデフォルトアーキテクチャとなっています。