Allen Institute BAR: 모듈식 사후 훈련과 MoE로 OLMo 2 7B 수학 점수 7.8점 향상
왜 중요한가
BAR(Branch-Adapt-Route)는 Allen Institute for AI에서 제안한 새로운 모듈식 사후 훈련 방법으로, 수학, 코드, 도구 사용, 안전성 등 각 분야 전문가를 독립적으로 훈련하고 통합 Mixture-of-Experts 모델로 결합할 수 있습니다. OLMo 2 7B에서의 결과: 평균 점수 49.1점, 기준 재훈련 대비 수학 +7.8점, 코드 +4.7점 향상을 달성했습니다.
BAR란 무엇이며 어떻게 작동하나요?
Allen Institute for AI는 2026년 4월 20일 새로운 모듈식 언어 모델 사후 훈련 방법인 **BAR(Branch-Adapt-Route)**를 발표했습니다. 단일 모델이 하나의 대규모 사후 훈련 파이프라인을 거치는 전통적인 단일체 방식과 달리, BAR는 여러 전문화된 전문가를 독립적으로 훈련할 수 있습니다:
- 수학
- 코드
- 도구 사용 (외부 도구 활용)
- 안전성
각 전문가는 자신의 도메인에서 개별적으로 훈련된 후, 라우팅 메커니즘을 통해 하나의 통합 Mixture-of-Experts(MoE) 모델로 결합됩니다. MoE 아키텍처는 모델이 여러 전문화된 서브모델을 가지며, 라우터가 각 쿼리에 대해 어떤 전문가가 응답할지 선택함을 의미합니다.
BAR는 성능을 얼마나 향상시키나요?
Allen Institute의 오픈 모델 OLMo 2 7B에서 19개의 벤치마크를 통해 측정된 결과:
- 평균 점수 49.1 (단일체 재훈련 기준선 47.8 대비)
- 수학 +7.8점
- 코드 +4.7점
평균 1.3점의 차이는 소소하게 들릴 수 있지만, 수학과 코드 같은 특정 도메인에서 5-8점 향상은 중요합니다. 특히 다른 분야에서 저하 없이 달성되었기 때문입니다.
모듈성이 벤치마크보다 중요한 이유
BAR의 진정한 돌파구는 벤치마크 점수가 아니라 점진적 개선의 가능성에 있습니다. 전통적인 방식에서는 모든 주요 개선이 완전한 재훈련을 의미합니다. BAR에서는 시스템의 다른 부분을 방해하지 않고 개별 전문가를 교체하거나 업그레이드할 수 있습니다:
- 코드 전문가를 더 새롭고 우수한 것으로 교체: 코드 +16.5점
- 수학 전문가에 강화 학습(RL) 추가: 수학 +13점
이는 소프트웨어 개발 방식——모듈식 서비스가 독립적으로 업그레이드되는——과 유사한 접근 방식으로, 전체 시스템의 단일체 재구축과는 다릅니다.
파국적 망각 문제를 어떻게 해결하나요?
AI 연구에서 가장 큰 문제 중 하나는 파국적 망각입니다. 새로운 지식이 기존 지식을 ‘지워버립니다’. 수학을 위해 모델을 파인튜닝하면, 다른 도메인(시, 대화, 코드 등)의 능력이 저하될 현실적인 위험이 있습니다.
BAR는 전문가 격리를 통해 이를 우아하게 해결합니다. 각 전문가가 자신의 도메인에서 훈련될 때 다른 전문가의 가중치에 영향을 주지 않습니다. 라우터는 언제 어떤 전문가를 사용할지만 학습합니다. 이를 통해 회귀를 두려워하지 않고 전문화를 추가할 수 있습니다.
오픈소스 커뮤니티에 대한 영향
오픈 모델에 대해 BAR는 매우 중요한 가능성——분산 개발——을 열어줍니다. 서로 다른 연구팀이 다른 전문가를 기여하면 이 전문가들이 공유 모델에 통합됩니다. 이 접근 방식은 오픈소스 모델의 진화를 크게 가속화할 수 있습니다.
실제로 BAR 저자들은 ‘베이스’ 모델이 오랫동안 안정적으로 유지되고 개선이 새로운 전문가 출시를 통해 이루어지는 패턴을 제안합니다. 이는 오픈소스 AI 커뮤니티의 협력 방식을 바꿀 수 있습니다——‘누가 최고의 7B 모델을 갖고 있는가’에서 ‘누구의 수학 전문가가 현재 최고인가’로의 전환입니다.
Allen Institute는 이를 통해 완전한 방법론과 전문가 가중치를 모두 공개하는 이점과 함께 오픈 AI 연구에서 가장 중요한 플레이어 중 하나로서의 입지를 굳혔습니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.