Google DeepMind Decoupled DiLoCo:지리적으로 분산된 데이터센터 간 AI 훈련 네트워크 대역폭 20배 절감
Google DeepMind가 AI 모델 훈련을 위한 분산 아키텍처인 Decoupled DiLoCo를 발표했습니다. 8개 데이터센터 간에 필요한 네트워크 대역폭을 198 Gbps에서 0.84 Gbps로 줄이고, 높은 오류율 시나리오에서 굿풋을 27%에서 88%로 개선합니다.
13 개 뉴스
Google DeepMind가 AI 모델 훈련을 위한 분산 아키텍처인 Decoupled DiLoCo를 발표했습니다. 8개 데이터센터 간에 필요한 네트워크 대역폭을 198 Gbps에서 0.84 Gbps로 줄이고, 높은 오류율 시나리오에서 굿풋을 27%에서 88%로 개선합니다.
vLLM은 DeepSeek과 같은 날 V4-Pro 및 V4-Flash 모델의 완전한 통합을 발표했습니다. 100만 토큰 컨텍스트에서 V3.2 대비 KV 캐시가 8.7배 감소했습니다. 희소 어텐션과 적극적인 압축의 조합으로 표준 GPU 하드웨어에서의 서빙이 가능해졌습니다.
Allen Institute for AI가 위성 이미지 임베딩을 위한 세 가지 크기의 모델(Nano, Tiny, Base)을 갖춘 OlmoEarth Studio를 출시했습니다. 이 모델들은 단 60개의 레이블된 픽셀만으로 지형 분할에서 F1 점수 0.84를 달성하며, 변화 감지와 PCA 시각화도 지원합니다.
Apple은 이번 주 리우데자네이루에서 열리는 ICLR 2026 학회에서 5편의 머신러닝 연구 논문을 발표했으며, 그 중 가장 주목받는 것은 ParaRNN입니다. ParaRNN은 비선형 순환 신경망의 병렬 학습을 가능하게 하는 방법으로, 순차적 방식 대비 665배 빠른 속도를 달성하여 RNN을 수십억 파라미터 규모로 확장해 트랜스포머와 경쟁력을 갖추게 합니다.
Linux Foundation AI & Data는 9가지 책임 AI 차원을 통해 RGAF(책임 있는 생성형 AI 프레임워크)를 구현하는 방법을 보여주는 실용 가이드를 발표했습니다. 35개의 구체적인 오픈소스 도구 카탈로그와 NIST AI RMF, EU AI법, ISO/IEC 42001, OECD 원칙과의 일치가 포함되어 있습니다.
WorldDB는 벡터 데이터베이스와 중첩된 세계 그래프 및 온톨로지를 결합한 AI 에이전트용 새로운 메모리 엔진입니다. 쓰기 시 지식을 조율하고 에이전트 메모리의 모순을 방지하며 LongMemEval-s 벤치마크에서 96.40%의 정확도를 달성합니다.
BAR(Branch-Adapt-Route)는 Allen Institute for AI에서 제안한 새로운 모듈식 사후 훈련 방법으로, 수학, 코드, 도구 사용, 안전성 등 각 분야 전문가를 독립적으로 훈련하고 통합 Mixture-of-Experts 모델로 결합할 수 있습니다. OLMo 2 7B에서의 결과: 평균 점수 49.1점, 기준 재훈련 대비 수학 +7.8점, 코드 +4.7점 향상을 달성했습니다.
AMD FLy는 드래프트 토큰을 의미론적으로 수락하여 Llama-3.3-405B에서 4.80~5.21배, Llama-3.1-70B에서 2.74배 가속을 달성하는 새로운 훈련 불필요 투기적 디코딩 방법입니다. 99% 이상의 정확도를 유지하면서 추가적인 모델 훈련이 필요하지 않습니다.
Gemma 4는 Google의 새 세대 오픈 모델로 네 가지 변형으로 제공됩니다: 모바일용 E2B, 엣지 디바이스용 E4B, 38억 활성 파라미터를 가진 26B MoE, 그리고 31B dense. 31B는 오픈 모델 아레나 순위에서 3위를 차지했으며 자신보다 20배 큰 모델을 능가한다고 알려져 있고, 26B MoE는 6위입니다. 모든 모델은 멀티모달(텍스트, 이미지, 비디오, 오디오)이며 140개 언어를 지원하고 최대 256K 토큰의 컨텍스트를 가지며 Apache 2.0 라이선스로 출시됩니다.
HuggingFace는 Sentence Transformers 라이브러리를 통해 멀티모달 임베딩 및 리랭커 모델을 파인튜닝하는 자세한 가이드를 발표했습니다. 초점은 텍스트와 이미지를 공통 임베딩 공간에 통합하여 이기종 데이터에 걸친 의미적 검색을 가능하게 하는 것입니다. 주요 적용은 문서, 테이블, 이미지, 스캔 혼합물을 처리하는 RAG 시스템입니다.
HuggingFace는 Claude Code를 사용하여 Transformers 모델을 Apple Silicon용 MLX-LM 플랫폼으로 포팅하는 15,000단어의 Transformers-to-MLX skill을 공개했습니다. skill에는 LLM 환각 문제를 제거하는 결과를 독립적으로 검증하는 테스트 하네스가 포함되어 있으며, AI 에이전트가 풀 리퀘스트 수를 10배 늘리는 오픈소스 프로젝트의 증가하는 과제를 해결합니다.
LangChain이 문서의 오래된 코드 예제를 방지하기 위해 Deep Agent를 사용하는 자동화된 문서 테스트 시스템을 구축했습니다. 이 시스템은 다양한 스킬(skills)을 활용하여 인라인 코드 스니펫을 독립형 테스트 파일로 마이그레이션하고, GitHub Actions를 통해 실행하며, 검증된 스니펫을 재생성하여 문서가 항상 API의 실제 상태를 반영하도록 합니다.
Overworld가 Waypoint-1.5를 공개했습니다. 이는 RTX 3090 및 Apple Silicon Mac 같은 소비자용 GPU에서 720p/60fps 해상도로 인터랙티브 가상 환경을 생성하는 실시간 비디오 월드 모델입니다. 이 모델은 이전 버전보다 약 100배 많은 데이터로 훈련되었으며, HuggingFace에서 오픈 소스로 제공됩니다.