Mixture of Experts (MoE)

Mixture of Experts (MoE) model sadrži veliki broj “expert” pod-mreža plus naučeni router koji bira koji experti obrađuju svaki token. Za svaki dani ulaz aktivira se samo nekoliko experata (tipično 2 od 8, 8 od 64 ili slično); ostali ostaju neaktivni. Model ima broj parametara i kapacitet ogromnog gustog modela ali compute trošak puno manjeg.

Zašto je važno: skaliranje gustih transformera udara u zid — veći modeli postaju previše skupi za izvršavanje. MoE razbija vezu između ukupnih parametara i aktivnih parametara po tokenu, dopuštajući rast kapaciteta bez proporcionalnog rasta troška inference-a.

Značajni MoE modeli:

Mixtral 8x7B i 8x22B (Mistral AI, open-weight)
DeepSeek-V3 / DeepSeek-R1 (671B ukupno, ~37B aktivnih)
Llama 4 obitelj (Meta, MoE prihvaćen 2025.)
GPT-4 / GPT-5 — pretpostavlja se MoE (nije službeno potvrđeno)
Qwen MoE serija (Alibaba)

Trade-offovi: MoE treniranje je složenije (load balancing, expert collapse), inference serveri trebaju više vršne memorije (svi experti moraju stati), i ne profitira svaki workload jednako. Do 2026. MoE je postao default arhitektura za vrhunske open-weight i closed frontier modele.

Izvori

Vidi također