Modeli
Mixture of Experts (MoE)
Arhitektura neuronske mreže koja za svaki ulaz aktivira samo dio svojih parametara, čime nudi sposobnosti puno većeg modela uz znatno manji trošak inference-a.
Mixture of Experts (MoE) model sadrži veliki broj “expert” pod-mreža plus naučeni router koji bira koji experti obrađuju svaki token. Za svaki dani ulaz aktivira se samo nekoliko experata (tipično 2 od 8, 8 od 64 ili slično); ostali ostaju neaktivni. Model ima broj parametara i kapacitet ogromnog gustog modela ali compute trošak puno manjeg.
Zašto je važno: skaliranje gustih transformera udara u zid — veći modeli postaju previše skupi za izvršavanje. MoE razbija vezu između ukupnih parametara i aktivnih parametara po tokenu, dopuštajući rast kapaciteta bez proporcionalnog rasta troška inference-a.
Značajni MoE modeli:
- Mixtral 8x7B i 8x22B (Mistral AI, open-weight)
- DeepSeek-V3 / DeepSeek-R1 (671B ukupno, ~37B aktivnih)
- Llama 4 obitelj (Meta, MoE prihvaćen 2025.)
- GPT-4 / GPT-5 — pretpostavlja se MoE (nije službeno potvrđeno)
- Qwen MoE serija (Alibaba)
Trade-offovi: MoE treniranje je složenije (load balancing, expert collapse), inference serveri trebaju više vršne memorije (svi experti moraju stati), i ne profitira svaki workload jednako. Do 2026. MoE je postao default arhitektura za vrhunske open-weight i closed frontier modele.