🤖 24 AI
🟡 📦 오픈소스 2026년 4월 24일 금요일 · 3 분 읽기

Google DeepMind Decoupled DiLoCo:지리적으로 분산된 데이터센터 간 AI 훈련 네트워크 대역폭 20배 절감

편집 일러스트:오픈소스 도구 — open-source

왜 중요한가

Google DeepMind가 AI 모델 훈련을 위한 분산 아키텍처인 Decoupled DiLoCo를 발표했습니다. 8개 데이터센터 간에 필요한 네트워크 대역폭을 198 Gbps에서 0.84 Gbps로 줄이고, 높은 오류율 시나리오에서 굿풋을 27%에서 88%로 개선합니다.

Google DeepMind는 2026년 4월 23일 분산형 AI 모델 훈련 아키텍처의 새로운 세대인 Decoupled DiLoCo를 발표했습니다. 핵심 성과——8개 데이터센터 구성에서 데이터센터 간에 필요한 네트워크 대역폭이 198 Gbps에서 0.84 Gbps로 감소하고, 동시에 높은 오류율 시나리오에서 굿풋이 27%에서 88%로 향상되었습니다.

DiLoCo란 무엇이며 왜 필요했습니까?

DiLoCo(분산 저통신)는 DeepMind가 2023년에 발표하고 2024년 내내 개선해 온 방법입니다. 현대 AI 훈련의 근본적인 문제——데이터센터 내부와 데이터센터 간의 네트워크 대역폭 차이를 해결합니다.

단일 데이터센터 내에서 GPU는 초고속 링크(NVLink, InfiniBand)로 연결되어 노드당 수백 Gbps를 달성합니다. 그러나 훈련을 지리적으로 분산된 여러 데이터센터에 분배하려 할 때, 이들 사이의 대역폭은 10~100배 낮고 지연 시간도 훨씬 높습니다.

기존의 데이터 병렬 알고리즘은 빈번한 그래디언트 동기화를 요구합니다——데이터센터 내부에는 존재하지만 데이터센터 간에는 없는 대역폭입니다. DiLoCo는 동기화 없이 실행되는 로컬 최적화 단계로 이 문제를 해결하고 누적된 그래디언트를 주기적으로만 교환합니다.

「디커플링」혁신이란 무엇입니까?

4월 23일에 발표된 새 버전은 비동기 계산 섬의 개념을 도입합니다. 모든 데이터센터가 동시에 같은 단계를 실행하는 대신, 개별 「섬들」이 독립적으로 진행하고 핵심 체크포인트에서만 통신합니다.

이 계산 흐름과 통신 흐름의 디커플링(decoupling)은 데이터센터 간의 네트워크 압력을 극적으로 감소시킵니다. DeepMind가 공개한 수치에 따르면 필요한 대역폭이 198 Gbps에서 0.84 Gbps로——약 235배 감소합니다.

핵심 지표는 무엇입니까?

DeepMind는 세 가지 핵심 지표를 공개했습니다:

  • 대역폭:8개 데이터센터 간 198 Gbps → 0.84 Gbps
  • 굿풋(유효한 작업의 실제 처리량):Decoupled DiLoCo 88% vs 기존 방법 27%(120만 칩, 높은 오류율 시뮬레이션에서 측정)
  • 정확도:새 방법 64.1% vs 기준선 64.4%——0.3퍼센트포인트 하락

세 번째 수치가 가장 중요합니다. 역사적으로 분산 방법은 큰 통신 절감을 가져왔지만 모델 품질의 상당한 저하를 동반했습니다. Decoupled DiLoCo는 이 딜레마를 사실상 해소합니다——네트워크 절감의 비용이 최소화됩니다.

실질적인 의미는 무엇입니까?

영향은 광범위합니다. 조 단위 파라미터 모델 훈련은 지금까지 초고속 연결의 메가 데이터센터나 특수한 AI 최적화 패브릭 네트워크를 갖춘 상업용 클라우드를 필요로 했습니다. Decoupled DiLoCo는 같은 작업이 지리적으로 분산된 인프라를 통해 수행될 수 있음을 보여줍니다——위치 간 대역폭이 제한적이더라도.

오픈소스 AI 커뮤니티와 소규모 연구소들에게 이는 현재 Google, Microsoft, Meta가 보유한 **「컴퓨팅 해자」**를 낮춥니다. 여러 중간 규모 GPU 클러스터(같은 위치에 있을 필요 없음)에 접근할 수 있는 프로젝트들이 이제 경쟁력 있는 모델 훈련을 현실적으로 고려할 수 있습니다.

경쟁사와의 관계는 어떻습니까?

다른 기업들도 유사한 접근 방식을 연구하고 있습니다. Meta FLocal은 병렬 파이프라인을 통한 분산 훈련 최적화를 시도하고 있으며, Anthropic TurboTrain은 자체 인프라 내 처리량 최적화에 집중하고 있습니다. 공개된 수치를 기준으로 보면 Decoupled DiLoCo는 네트워크 요구 사항 감소에서 가장 공격적입니다.

연구 발표이지 오픈 코드가 아니지만 Google은 이러한 방법을 JAX 생태계를 통해 오픈하는 관례가 있습니다. 이번에도 그렇게 된다면 오픈 연구자들에게 강력한 새 도구가 제공됩니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.