Marco-MoE: 오픈 다국어 MoE, 5% 활성화, 5T 토큰

Marco-MoE는 Jiang, Zhao 등의 팀이 2026년 4월 28일 발표한 새로운 오픈소스 스파스 Mixture-of-Experts 모델 패밀리입니다. 토큰당 총 파라미터의 약 5%만 활성화하며, Dense 모델에서 업사이클링하여 5조 토큰 학습되었습니다. Instruct 버전은 활성 파라미터가 3~14배 많은 Dense 경쟁 모델을 능가하며, 가중치·데이터셋·레시피가 모두 공개되었습니다.

8명의 연구자(Fan Jiang, Yu Zhao, Chenyang Lyu, Tianqi Shi, Yichao Du, Feihu Jiang, Longyue Wang, Weihua Luo)는 2026년 4월 28일 Marco-MoE: 효율적인 업사이클링을 통한 오픈 다국어 Mixture-of-Expert 언어 모델 프리프린트를 발표했습니다. 이는 학습 데이터셋·레시피·가중치를 포함한 완전 오픈 MoE 모델 중 하나입니다.

스파스 MoE란 무엇입니까?

Mixture-of-Experts(MoE)는 여러 ‘전문가’——병렬 MLP 모듈——를 가진 아키텍처로, 라우터가 각 토큰마다 그 중 일부만 활성화합니다. Marco-MoE는 입력 토큰당 총 파라미터의 약 5%만 활성화하는 극도로 스파스한 설계를 채택합니다. 이는 추론 비용을 비례적으로 증가시키지 않으면서 총 용량을 효율적으로 확장할 수 있게 합니다.

학습 레시피로서의 업사이클링

처음부터 학습하는 대신 저자들은 업사이클링을 사용합니다: 기존 Dense 모델을 MLP 레이어를 전문가로 복사하고 라우터 네트워크를 추가하여 MoE 아키텍처로 변환합니다. 이후 5조 토큰의 추가 사전 학습이 진행됩니다. 시드로 사용된 Dense 모델은 초록에 명시되지 않았지만, 이 접근 방식은 선행 연구(Mixtral, Qwen-MoE)에서 효과가 입증되었습니다.

포스트 트레이닝을 통해 얻은 Marco-MoE-Instruct 변형은 영어 및 다국어 벤치마크에서 활성 파라미터가 3~14배 많은 모델을 능가합니다. 구체적인 파라미터 수(예: 활성 7B, 총 56B)는 획득한 초록에 기재되어 있지 않습니다.

언어 특성에 대해

분석에서 가장 흥미로운 부분: Marco-MoE는 관련 언어들에 공통적인 구조화된 전문가 활성화 패턴을 학습하며, 언어적으로 고립된 언어는 고도로 특화된 전문가를 가집니다. 저자들은 이를 통해 Dense 모델에서 일반적인 간섭 없이 확장 가능한 언어 확장이 가능함을 증명합니다——다국어 활용에 있어 중요한 운영 특성입니다.

공개가 중요한 이유

중국 팀들(Qwen, DeepSeek, Yi)은 2025~2026년 오픈 가중치 모델에서 선두를 달리고 있지만, 완전한 스택——가중치·데이터셋·레시피——을 공개하는 팀은 드뭅니다. Marco-MoE는 이러한 완전 공개의 드문 사례에 속하며, 연구 커뮤니티가 독립적인 재현 및 파생 모델 구축을 수행할 수 있게 합니다.

자주 묻는 질문

MoE 모델의 '업사이클링'이란 무엇입니까?

기존 Dense 모델을 MLP 레이어를 전문가로 복사하고 라우터 네트워크를 추가하여 MoE 아키텍처로 변환하는 기술입니다. MoE를 처음부터 학습하지 않아도 되어 연산 자원이 절약되며, Dense 모델의 성과가 이어집니다.

공개된 내용은 무엇입니까?

완전한 학습 데이터셋, 레시피(절차 및 하이퍼파라미터), Base 및 Instruct 변형의 모델 가중치가 공개되었습니다. 독립적인 재현 및 도메인별 파인튜닝이 가능합니다.

언어적 특성은 어떻습니까?

분석에 따르면 Marco-MoE는 관련 언어들에 공통적인 구조화된 전문가 활성화 패턴을 학습하며, 언어적으로 고립된 언어는 고도로 특화된 전문가를 가집니다. Dense 모델의 일반적인 간섭 없이 확장 가능한 언어 확장을 실현합니다.

Marco-MoE: 파라미터 5%만 활성화하는 오픈소스 다국어 MoE, 활성 파라미터 3~14배 많은 Dense 모델 능가

스파스 MoE란 무엇입니까?

학습 레시피로서의 업사이클링

언어 특성에 대해

공개가 중요한 이유

자주 묻는 질문

출처

관련 뉴스