전문가 혼합 (MoE)

전문가 혼합 (MoE, Mixture of Experts) 모델은 다수의 “전문가” 서브 네트워크와, 각 토큰을 어떤 전문가에게 처리시킬지 결정하는 학습된 라우터로 구성됩니다. 주어진 입력에 대해 일부 전문가만 활성화되고(일반적으로 8개 중 2개, 64개 중 8개 등), 나머지는 비활성 상태를 유지합니다. 모델은 거대한 밀집 모델에 상응하는 파라미터 수와 용량을 가지면서도, 훨씬 작은 모델에 해당하는 계산 비용으로 처리합니다.

중요한 이유: 밀집 트랜스포머의 확장은 한계에 부딪힙니다. 모델이 클수록 실행 비용이 급격히 증가합니다. MoE는 총 파라미터 수와 토큰당 활성화 파라미터 수의 연결 고리를 끊어, 추론 비용을 비례적으로 늘리지 않고도 용량을 계속 늘릴 수 있게 합니다.

주요 MoE 모델:

Mixtral 8x7B 및 8x22B (Mistral AI, 오픈 웨이트)
DeepSeek-V3 / DeepSeek-R1 (총 671B, 활성화 ~37B)
Llama 4 계열 (Meta, 2025년 MoE 채택)
GPT-4 / GPT-5 — MoE로 추정되나 공식 미확인
Qwen MoE 시리즈 (Alibaba)

트레이드오프로는 MoE 학습이 더 복잡하고(부하 분산, 전문가 붕괴 문제), 추론 서버는 더 높은 피크 메모리를 필요로 하며(모든 전문가가 메모리에 상주해야 함), 모든 워크로드에서 동등한 이점을 얻는 것은 아닙니다. 2026년까지 MoE는 최고 수준의 오픈 웨이트 및 클로즈드 프론티어 모델의 기본 아키텍처가 되었습니다.

출처

관련 항목