IBM Granite 4.1:15T 토큰으로 학습된 오픈 소스 3B/8B/30B Apache 2.0 모델 패밀리, 밀집 8B 모델이 32B MoE에 필적
IBM은 2026년 4월 29일 HuggingFace 블로그에 Granite 4.1 모델 패밀리 구축 세부 사항을 공개했습니다. Apache 2.0 라이선스의 3B, 8B, 30B 밀집 변형이 제공됩니다. 약 15T 토큰으로 5단계 파이프라인 전략을 통해 학습했으며, GRPO+DAPO 손실을 사용한 4단계 RL을 채택했습니다. Granite 4.1-8B Instruct는 대부분의 벤치마크에서 이전 세대 Granite 4.0-H-Small(32B-A9B MoE)에 필적하거나 이를 능가하며, 밀집 모델이 동일한 활성화 예산으로 MoE 품질에 도달할 수 있음을 보여줍니다.
IBM은 2026년 4월 29일 HuggingFace 블로그에 Granite 4.1 구축에 관한 기술적 심층 분석을 게재했습니다. Apache 2.0 라이선스의 오픈 소스 LLM 패밀리입니다. 이 게시물은 표준 마케팅 런치보다 훨씬 상세하며, 사전 학습 파이프라인, RL 단계, 벤치마크 결과에 대한 구체적인 수치가 포함되어 있습니다.
크기와 아키텍처
세 가지 밀집 변형(MoE 아님):
| 크기 | 레이어 수 | 임베딩 차원 | KV 헤드 |
|---|---|---|---|
| 3B | 40 | 2,560 | 8 GQA |
| 8B | 40 | 4,096 | 8 GQA |
| 30B | 64 | 4,096 | 8 GQA |
모든 변형은 GQA(Grouped Query Attention), RoPE, SwiGLU 활성화, RMSNorm을 사용합니다. 마지막 단계에서 80% 책 + 20% 코드의 학습 믹스로 **단계적 장기 컨텍스트 확장(LCE)**을 통해 512K 토큰까지 확장됩니다.
5단계 사전 학습(약 15T 토큰)
정교한 전략:
| 단계 | 토큰 수 | 포커스 |
|---|---|---|
| 1 | 10T | 일반(59% CommonCrawl, 20% 코드, 7% 수학) |
| 2 | 2T | 수학/코드 강조(35% 수학, 30% 코드) |
| 3 | 2T | 고품질 어닐링 + 12.5% CoT |
| 4 | 0.5T | 정제(40% CommonCrawl-HQ, 9% 언어 지침) |
| 5 | 가변 | 장기 컨텍스트 확장 32K→128K→512K |
SFT + 4단계 RL 파이프라인
사전 학습 이후:
- SFT:약 410만 개의 큐레이션 샘플, 3 에포크, 학습률 5e-6, 16K 시퀀스 길이
- RL 파이프라인은 온 폴리시 GRPO와 DAPO 손실(Yu 등, 2025)사용:
- 멀티 도메인 RL(45,504개 프롬프트)
- RLHF(17,920개 프롬프트)→ AlpacaEval 약 +18.9점
- 아이덴티티 및 지식 보정 RL(1,728개 프롬프트)
- 수학 RL(13,504개 프롬프트)→ GSM8K +3.8, DeepMind-Math +23.48
핵심 결과:8B 밀집 ≈ 32B MoE
가장 흥미로운 발견:Granite 4.1-8B Instruct가 이전 세대 Granite 4.0-H-Small(32B-A9B MoE)에 필적하거나 능가합니다:
- IFEval, AlpacaEval, MMLU-Pro, BBH(일반)
- GSM8K, DeepMind-Math(수학)
- HumanEval+, ArenaHard, BFCL V3, MBPP+(코드)
8B Instruct 구체적 수치:MMLU 73.84, GSM8K 92.49, HumanEval 87.20, AlpacaEval 2.0 50.08, IFEval 평균 87.06, BFCL v3 68.27.
이는 동일한 활성화 예산에서 MoE 우위가 줄어들었음을 시사합니다 — 8B 밀집(8B 활성)이 32B-A9B MoE(9B 활성)와 경쟁할 수 있습니다. Mixtral과 DeepSeek-V3 추세와 반대입니다.
장기 컨텍스트 성능
RULER 벤치마크:
- 8B-base: 83.6(32K)→ 79.1(64K)→ 73.0(128K)
- 30B-base: 85.2(32K)→ 84.6(64K)→ 76.7(128K)
512K는 이용 가능하지만 RULER는 해당 길이에서 평가되지 않았습니다.
인프라 및 배포
NVIDIA GB200 NVL72 클러스터(72 GPU NVLink 도메인, NDR 400 Gb/s InfiniBand)에서 학습. FP8 양자화는 추론에 이용 가능(디스크/GPU 메모리 약 50% 감소). 12개 언어 지원:영어, 독일어, 스페인어, 프랑스어, 일본어, 포르투갈어, 아랍어, 체코어, 이탈리아어, 한국어, 네덜란드어, 중국어.
리소스:
- HuggingFace:
ibm-granite/granite-41-language-models - GitHub:
ibm-granite/granite-4.1-language-models
자주 묻는 질문
- Granite 4.1은 어떤 크기와 아키텍처를 제공합니까?
- 세 가지 밀집 변형:3B(40레이어, 2,560 임베딩 차원), 8B(40레이어, 4,096 임베딩 차원), 30B(64레이어, 4,096 임베딩 차원). 모두 Grouped Query Attention(8 KV 헤드), RoPE, SwiGLU, RMSNorm을 사용합니다. 단계적 장기 컨텍스트 확장(LCE)을 통해 512K 토큰까지 확장됩니다.
- 5단계 사전 학습 전략은 무엇입니까?
- 1단계(10T 토큰):일반(59% CommonCrawl, 20% 코드, 7% 수학). 2단계(2T):수학/코드 강조. 3단계(2T):12.5% CoT 데이터 포함 고품질 어닐링. 4단계(0.5T):정제. 5단계(가변):장기 컨텍스트 확장(32K→128K→512K), 80% 책 + 20% 코드.
- 8B가 32B MoE에 필적한다는 것은 무슨 의미입니까?
- Granite 4.1-8B Instruct는 IFEval, AlpacaEval, MMLU-Pro, BBH, GSM8K, DeepMind-Math, HumanEval+, ArenaHard, BFCL V3, MBPP+에서 이전 세대 Granite 4.0-H-Small(32B-A9B MoE)에 필적하거나 이를 능가합니다. 비교 가능한 활성 파라미터에서 MoE 우위가 줄어들었음을 시사합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.