공동 실패 천장: LLM 앙상블이 도움 안 되는 경우

21개 제공업체의 67개 프론티어 모델에 대한 연구가 공동 실패 천장(co-failure ceiling) — 모든 모델이 동일한 쿼리에서 실패할 때 발생하는 LLM 앙상블 정확도의 상한선 — 이라는 개념을 도입합니다. 결과는 쿼리 수준 라우팅 없이는 모델 조합이 단일 최강 모델을 능가하는 경우가 드물다는 것을 보여줍니다.

공동 실패 천장이란 무엇입니까?

LLM 앙상블 — 투표, 라우팅, Mixture-of-Agents 아키텍처로 여러 언어 모델을 결합하는 시스템 — 은 정확도의 수학적 상한선을 가집니다. 연구자 Josef Chen은 공동 실패 천장 beta를 그룹의 모든 모델이 동시에 실패하는 쿼리 비율로 정의합니다: 결합 시스템의 정확도는 모델 수에 관계없이 1 − beta 값을 초과할 수 없습니다.

실제로 상한선은 얼마나 됩니까?

21개 제공업체의 67개 프론티어 모델 분석에서 beta가 표준 통계 모델이 예측하는 것보다 지속적으로 높다는 것을 보여줍니다. 개방형 수학 작업에서 측정된 beta는 0.052인 반면 이론적 모델은 0.023만을 예측합니다 — 거의 2.5배 과소평가(90% 신뢰 구간: 1.7배~3.4배). 코딩에서 beta는 0.079로 증가하고, GPQA-Diamond 문제를 객관식에서 개방형 답변으로 재형식화하면 0.127에 달합니다.

언제 조합이 효과적이고 언제 그렇지 않습니까?

오류 상관관계가 낮은 이질적 앙상블은 동일한 품질 수준에서 동질적 Self-MoA 구성보다 성능이 좋습니다. 그러나 쿼리 수준 라우팅 없이는 — 각 쿼리를 가장 적합한 모델로 보내는 것 — 결합 시스템이 단순히 선택된 단일 최강 모델을 능가하는 경우가 드뭅니다. 앙상블 진단의 일반적인 척도인 쌍별 오류 상관관계는 공동 실패율을 드러내지 못하므로 실제 상한선을 과소평가합니다.

이 연구는 2026년 6월 25일 제출되었습니다.

자주 묻는 질문

공동 실패 천장이란 무엇이며 왜 중요합니까?

공동 실패 천장(beta)은 앙상블의 모든 모델이 실패하는 쿼리 비율입니다. 모델을 아무리 많이 추가해도 시스템 정확도는 1 빼기 beta를 초과할 수 없습니다.

LLM 조합이 실제로 도움이 되는 경우는 언제입니까?

모델들이 공통된 약점을 공유하는 것이 아니라 서로 다른 쿼리에서 실패할 때 도움이 됩니다. 어떤 모델이 어떤 쿼리에 적합한지 인식하는 쿼리 수준 라우팅만이 최고 단일 모델보다 나은 결과를 달성하는 유일하게 신뢰할 수 있는 방법입니다.

arXiv:2606.27288: LLM 앙상블이 실제로 도움이 될 때 — 67개 프론티어 모델의 공동 실패 천장

공동 실패 천장이란 무엇입니까?

실제로 상한선은 얼마나 됩니까?

언제 조합이 효과적이고 언제 그렇지 않습니까?

자주 묻는 질문

출처

관련 뉴스