🟡 🤖 모델 2026년 5월 9일 토요일 · 2 분 읽기 ·

Allen Institute: EMO——데이터에서 자연스러운 의미적 모듈성을 갖춘 MoE 언어 모델

편집 일러스트: 전문가가 의미적 도메인별로 그룹화된 MoE 언어 모델 아키텍처 다이어그램

EMO는 Allen Institute의 새로운 MoE 언어 모델로, 10억 개의 활성 매개변수와 140억 개의 총 매개변수를 가지며 1조 개의 토큰으로 학습되었습니다. 전문가들이 의미적 도메인으로 자기 조직화되어 활성 전문가의 25%만 사용해도 성능 저하가 1%에 불과합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

Allen Institute for AI(Ai2)는 2026년 5월 8일에 EMO——수동 레이블링 없이 전문가들 사이에서 자연스러운 의미적 모듈성을 발전시키는 희소 Mixture-of-Experts(MoE) 언어 모델——를 발표했습니다. 모델은 10억 개의 활성 매개변수와 140억 개의 총 매개변수를 가지며, 128개의 전문가 중 토큰별로 8개가 활성화되고, 1조 개의 토큰으로 학습되었습니다.

EMO는 어떻게 창발적 모듈성을 달성합니까?

EMO는 문서 경계를 약한 감독 신호로 사용합니다. 동일한 문서 내의 모든 토큰은 공유 풀에서 활성 전문가를 선택해야 합니다. 이 단순한 제약만으로 학습 중에 전문가들이 선택적으로 사용하고 조합할 수 있는 일관된 그룹으로 자기 조직화되기에 충분합니다. MoE(Mixture of Experts)는 각 토큰에 대해 사용 가능한 모든 전문가 네트워크의 하위 집합만 활성화하는 아키텍처로, 낮은 계산 비용으로 큰 용량을 실현합니다.

가지치기 실험의 결과는?

전문가의 25%만 활성화(128개 중 32개)하면 EMO의 절대 성능 저하는 약 1%에 불과하며, 12.5%의 전문가(128개 중 16개)를 사용할 때는 약 3% 저하에 그칩니다. 표준 MoE 모델은 동일한 조건에서 크게 성능이 떨어지며, 이는 EMO가 서로 다른 주제 영역을 커버하는 기능적으로 분리된 전문가 하위 집합을 가지고 있음을 시사합니다.

전문가들은 어떤 도메인으로 그룹화됩니까?

전문가 활성화 시각화는 의미적 도메인에 해당하는 클러스터를 보여줍니다: 「건강, 의학 및 웰니스」, 「뉴스 보도」, 「미국 정치 및 선거」, 「영화 및 음악」. 반면 표준 MoE는 표층적 구문에 따라 전치사, 관사, 구두점이 각 클러스터에 흩어진 방식으로 토큰을 그룹화합니다.

공개된 리소스는 무엇입니까?

Ai2는 Hugging Face에 전체 EMO 모델과 비교용 표준 MoE 기준선을, GitHub에 학습 코드를 공개했으며, 도메인별 전문가 활성화를 실시간으로 탐색할 수 있는 대화형 시각화 도구(emovisualization.netlify.app)도 제공합니다.

자주 묻는 질문

EMO는 무엇이며 표준 MoE 모델과 어떻게 다릅니까?
EMO는 수동 레이블링 없이 의미적 모듈성을 발전시키는 희소 Mixture-of-Experts 언어 모델입니다. 전문가들이 의학이나 정치 같은 도메인을 중심으로 클러스터링되는 반면, 표준 MoE 모델은 표층적 구문에 따라 토큰을 그룹화합니다.
EMO의 매개변수 수와 전문가 수는 얼마나 됩니까?
모델은 10억 개의 활성 매개변수와 140억 개의 총 매개변수를 가지며, 128개의 전문가 중 토큰별로 8개가 활성화됩니다. 1조 개의 토큰으로 학습되었습니다.
공개적으로 제공되는 것은 무엇입니까?
Ai2는 Hugging Face에 전체 EMO 모델과 비교용 표준 MoE 기준선, GitHub에 학습 코드, emovisualization.netlify.app에서 실시간으로 도메인별 전문가 활성화를 탐색할 수 있는 대화형 시각화 도구를 공개했습니다.