Allen Institute: EMO — MoE-Sprachmodell mit natürlicher semantischer Modularität aus Daten
EMO ist ein neues MoE-Sprachmodell des Allen Institute mit 1 Mrd. aktiven und 14 Mrd. Gesamtparametern, trainiert auf 1 Billion Tokens. Experten organisieren sich selbst in semantische Domänen — bei 25 % aktiver Experten beträgt der Leistungsverlust nur 1 %.