🟢 📦 오픈소스 게시일: · 4 분 읽기 ·

arXiv:2605.15706 미분 가능한 에이전트 혼합: 동적 라우팅 에이전트 활성화로 9개 벤치마크 SOTA 달성

arXiv:2605.15706 ↗

Editorial illustration: neural network routing graf s LLM agentima i sparse activation indicator-ima.

미분 가능한 에이전트 혼합(Differentiable Mixture-of-Agents)은 Xingjian Wu, Junkai Lu, Siyu Yan, Xiangfei Qiu, Jilin Hu, Chenjuan Guo, Bin Yang이 2026년 5월 15일 발표한 arXiv 논문으로, 멀티 에이전트 LLM 협업을 위한 미분 가능한 라우팅 메커니즘을 제안합니다. 고정 토폴로지 대신 추론 단계별로 에이전트를 동적으로 선택하고 활성화하며, 외부 주석 없는 예측 엔트로피 자기 지도 학습을 통한 테스트 시간 적응으로 9개 벤치마크에서 SOTA를 달성합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

Xingjian Wu, Junkai Lu, Siyu Yan, Xiangfei Qiu, Jilin Hu, Chenjuan Guo, Bin Yang은 2026년 5월 15일 arXiv에 논문을 발표하여 멀티 에이전트 LLM 조정을 위한 새로운 프레임워크인 **미분 가능한 에이전트 혼합(Differentiable MoA)**을 제안했습니다. 고정된 사전 정의 토폴로지 대신 추론 단계별로 에이전트를 동적으로 선택하고 활성화하는 방식입니다.

고정 멀티 에이전트 토폴로지의 문제는 무엇인가요?

클래식 멀티 에이전트 LLM 프레임워크인 AutoGen(Microsoft), CrewAI, LangGraph, MetaGPT사전 정의된 통신 패턴을 사용합니다. 일반적으로:

  • 설계자가 개발 시 에이전트 역할을 정의합니다
  • 통신 흐름이 고정됩니다(라운드 로빈, 계층적, 브로드캐스트)
  • 모든 에이전트가 모든 쿼리에 대해 활성화되어 있습니다. 일부가 관련이 없더라도
  • 라우팅 결정은 규칙 기반이거나 정적입니다

문제는: 작업 복잡성과 에이전트 관련성이 단계별로 다릅니다. 추론 1단계에는 검색 에이전트만 필요할 수 있습니다. 5단계에는 수학 에이전트 + 코드 에이전트가 필요합니다. 10단계에는 안전 검토자 + 최종화 에이전트가 필요합니다. 고정 토폴로지는 그 단계별 흐름에 효율적으로 적응할 수 없습니다.

미분 가능한 라우팅이 구체적으로 무엇을 하나요?

미분 가능한 MoA는 에이전트 선택을 미분 가능한 최적화 문제로 취급합니다. 핵심 구성 요소:

미분 가능한 라우팅 메커니즘

  • 컨텍스트 인식 — 라우팅 결정이 현재 추론 상태에 따라 달라집니다
  • 순환 구조 — 정보에 기반한 라우팅을 위해 이전 추론 단계의 메모리를 사용합니다
  • 희소 활성화 — 단계별로 모든 에이전트가 아닌 에이전트 부분 집합만 활성화됩니다
  • 엔드투엔드 훈련 가능 — 라우팅 가중치가 전체 파이프라인을 통한 경사 하강으로 학습됩니다

동적 활성화

  • 단계별 라우팅 — 어떤 에이전트가 활성화되는지에 대한 결정이 추론 궤적을 통해 변합니다
  • 탄력적 협력 — 에이전트 참여가 부분적일 수 있습니다(일부는 의견만 제공하고, 다른 것은 최종화)
  • 정적 워크플로 없음 — 시스템이 설계 시가 아닌 훈련 중에 최적 흐름을 발견합니다

이 접근 방식은 밀집 모델(Mixtral, DeepSeek MoE)의 전문가 혼합(MoE) 아키텍처에서 영감을 받았지만, 전문가 레이어 수준이 아닌 에이전트 수준에 적용됩니다.

예측 엔트로피를 통한 테스트 시간 적응이란 무엇인가요?

논문에서 가장 야심찬 구성 요소는 테스트 시간 적응입니다. 시스템이 레이블된 데이터 없이 추론 중에 적응할 수 있습니다.

  • 예측 엔트로피가 자기 지도 학습 신호로 사용됩니다
  • 높은 엔트로피 = 모델이 현재 추론 단계에 불확실함 → 라우팅이 추가 관점을 위해 더 많은 에이전트를 활성화
  • 낮은 엔트로피 = 모델이 확신 → 라우팅이 효율성을 위해 더 적은 에이전트를 활성화
  • 최적화가 비지도 방식으로 이루어집니다 — 시스템이 자신의 불확실성에서 학습

실제적인 의미:

  • 제로샷 배포 — 시스템이 재훈련 없이 새 도메인에 적응합니다
  • 비용 인식 확장 — 쉬운 쿼리는 더 적은 컴퓨팅을, 어려운 쿼리는 더 많은 컴퓨팅을 사용합니다
  • 견고성 — 분포 이동 하에서의 성능 저하가 고정 토폴로지보다 완만합니다

9개 벤치마크에서 SOTA는 무엇을 의미하나요?

논문은 9개 벤치마크 스위트에서 최첨단 결과를 보고합니다. 초록에서 구체적인 벤치마크 이름과 수치 분석이 상세히 설명되지는 않았지만, 이 접근 방식은 네 가지 차원에서 개선을 보여줍니다.

  • 성능 — 주요 작업의 정확도
  • 효율성 — 더 적은 컴퓨팅/토큰 사용량
  • 견고성 — 적대적 또는 분포 외 조건 하에서의 성능 저하
  • 앙상블 능력 — 멀티 에이전트 창발 품질

9개 벤치마크 SOTA는 중요합니다. 멀티 에이전트 논문은 일반적으로 전문화된 벤치마크(함수 호출, 추론, 검색)를 목표로 합니다. 9개의 다른 평가 컨텍스트에서의 일반화는 프레임워크가 광범위하게 적용 가능하며 특정 작업 패밀리에 특화되지 않았음을 나타냅니다.

Argus 논문(2605.16217)과의 차이점은 무엇인가요?

두 논문(며칠 이내에 발표)은 모두 멀티 에이전트 확장을 다루지만 다른 각도에서 접근합니다.

측면Argus미분 가능한 MoA
아키텍처검색기 + 내비게이터미분 가능한 라우팅
전문화심층 연구일반 멀티 에이전트
확장 메커니즘병렬 검색기단계별 동적 활성화
훈련RL 합성엔드투엔드 경사도
테스트 시간훈련 후 정적예측 엔트로피 적응

접근 방식은 경쟁적이 아닌 상호 보완적입니다. Argus는 병렬 연구 에이전트의 중복성을 해결하고, 미분 가능한 MoA는 일반 멀티 에이전트 시스템의 정적 라우팅을 해결합니다. 프로덕션 배포에서는 두 프레임워크를 다른 애플리케이션 컨텍스트에서 함께 사용할 수 있습니다.

멀티 에이전트 프레임워크 업계에 대한 의미

미분 가능한 MoA는 현재 멀티 에이전트 프레임워크 설계 철학에 도전합니다.

  • AutoGen, CrewAI, LangGraph는 사용자 정의 워크플로를 사용합니다 — 논문은 이것이 차선책임을 시사합니다
  • 동적 라우팅은 기술적으로 요구가 높지만 상당한 성능 향상을 가져옵니다
  • 예측 엔트로피를 적응 신호로 사용하는 것은 지도 파이프라인이 필요 없는 우아한 자기 지도 학습 접근 방식입니다

이 논문은 2026년 에이전트 시스템의 아키텍처 혁신 트렌드에 부합합니다. Argus 증거 조립(5월 15일), CAST 사례 기반 보정(5월 14일), GraphFlow 형식 검증(5월 15일), Dual-Dimensional Consistency 토큰 감소(5월 14일). 업계는 집합적으로 에이전트 규모의 무차별 확장은 비효율적이라는 것을 인식하고 있습니다. 동적이고 희소하며 적응적인 아키텍처적 지혜가 필요합니다.

다음 세대 멀티 에이전트 벤치마크(BFCLv3, ToolBench v2, BrowseComp 2026)는 아마도 이 모든 논문들의 요소를 통합할 것입니다. 이는 현재 세대의 멀티 에이전트 프레임워크(AutoGen v0.4, CrewAI 0.x)가 2027~2028년 배포 목표를 가진 프로덕션 배포에서 이미 아키텍처적으로 구식이라는 것을 시사합니다.

자주 묻는 질문

미분 가능한 라우팅이 고정 멀티 에이전트 토폴로지와 어떻게 다른가요?
클래식 멀티 에이전트 프레임워크(AutoGen, CrewAI, LangGraph)는 사전 정의된 통신 패턴을 사용하며 에이전트는 항상 활성화되어 있고 통신 흐름이 설계 시 고정됩니다. 미분 가능한 MoA는 순환 구조를 갖춘 컨텍스트 인식 라우팅 메커니즘을 사용하여 추론 단계별로 희소한 에이전트 활성화를 생성합니다. 시스템은 현재 추론 단계와 관련된 에이전트를 적응적으로 선택합니다.
예측 엔트로피를 통한 테스트 시간 적응이란 무엇을 의미하나요?
시스템은 추론 중에 예측 엔트로피를 자기 지도 학습 신호로 사용하여 최적화합니다. 모델이 불확실할 때(높은 엔트로피), 라우팅은 추가 관점을 위해 더 많은 에이전트를 포함하여 조정됩니다. 모델이 확신할 때(낮은 엔트로피), 효율성을 위해 더 적은 에이전트를 활성화합니다. 이 접근 방식은 적응에 레이블된 데이터가 필요하지 않아 제로샷 배포 시나리오에서도 작동합니다.