arXiv OpenDeepThink: Codeforces Elo +405 향상

OpenDeepThink는 Shang Zhou와 공동 연구자들이 2026년 5월 14일 arXiv에 발표한 새로운 집단 기반 테스트 시간 계산 스케일링 방법론입니다. 이 프레임워크는 포인트와이즈 LLM 판정 대신 페어와이즈 Bradley-Terry 비교를 통해 여러 추론 후보를 병렬로 샘플링하고 최선의 것을 선택합니다. 결과: Gemini 3.1 Pro가 8라운드의 순차적 LLM 호출(약 27분)을 통해 Codeforces 벤치마크에서 +405 Elo 향상을 달성했습니다. 팀은 또한 73개의 전문가 평가 Codeforces 문제가 담긴 CF-73 데이터셋을 공개했습니다.

Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang 연구팀이 2026년 5월 14일 병렬 추론 스케일링에서 가장 잘 알려진 문제 중 하나를 다루는 논문을 발표했습니다. 그 문제는 진리값 검증기 없이 병렬 후보 중에서 최선의 답을 신뢰성 있게 선택하는 방법입니다.

병렬 추론의 선택 병목은 무엇입니까?

테스트 시간 계산 스케일링은 점점 더 병렬 샘플링을 활용합니다. 모델이 N개의 후보를 생성하고 시스템이 최선의 것을 선택합니다. 문제는 선택에 있습니다. 진리값 검증기 없이는 포인트와이즈 LLM 판정이 「노이즈가 많고 편향되어 있습니다」. 모델이 자체 출력을 평가하는 데 신뢰성이 낮습니다. OpenDeepThink가 제안하는 해결책은 다른 접근 방식입니다. Bradley-Terry 집계를 이용한 페어와이즈 비교입니다.

Bradley-Terry 생성 루프는 어떻게 작동합니까?

시스템은 8단계를 통해 세대별로 작동합니다.

랜덤 페어링 — LLM이 무작위 후보 쌍을 판정합니다
Bradley-Terry 집계 — 투표가 Bradley-Terry 통계 모델을 사용하여 글로벌 랭킹으로 변환됩니다
선택 — 상위 후보가 유지됩니다
변이 — 상위 4분의 3이 비교에서 도출된 자연어 비평을 통해 수정됩니다
폐기 — 하위 4분의 1이 버려집니다
루프가 8라운드(약 27분) 동안 반복됩니다

이 접근 방식은 진화 알고리즘에서 영감을 받았습니다. 집단이 세대를 거쳐 지속되지만 생물학적 적합도 함수 대신 LLM 기반 페어와이즈 선호 학습을 사용합니다.

논문이 구체적으로 제시하는 수치는 무엇입니까?

가장 중요한 지표: Codeforces 벤치마크에서 OpenDeepThink가 8라운드의 순차적 LLM 호출(약 27분)을 통해 Gemini 3.1 Pro의 유효 Elo 등급을 +405포인트 향상시켰습니다. +405 Elo는 극적인 도약입니다. 그랜드마스터 수준의 Gemini을 인간 세계 최상위 경쟁자들과 경쟁할 수 있는 범주로 끌어올립니다.

멀티 도메인 HLE 벤치마크에서 향상은 객관적으로 검증 가능한 도메인(수학, 프로그래밍)에 집중되어 있지만, 주관적 도메인(창의적 글쓰기, 의견)에서는 반대 경향이 나타났습니다. 이는 Bradley-Terry가 명확한 「더 나은 답변」 신호가 있는 경우에만 작동함을 시사합니다.

CF-73 데이터셋은 무엇을 가져옵니까?

팀은 CF-73을 공개했습니다. 그랜드마스터 주석이 달린 73개의 전문가 평가 Codeforces 문제로 구성된 엄선된 데이터셋입니다. CF-73은 향후 추론 연구를 위한 공개 평가 리소스로 기능하며, 벤치마크가 빠르게 낡아가는 도메인에서 측정 프로토콜 표준화에 도움을 줍니다.

이 프레임워크는 재튜닝 없이 모델 변형 간에 전이됩니다. 이를 통해 모든 프론티어 추론 시스템에 「모델 불가지론적」 추가물이 됩니다. 이 접근 방식은 SU-01(arXiv:2605.13301, 5월 13일)의 올림피아드 금메달 수준 추론과 직접 경쟁하지만 다른 방향에서입니다. SU-01은 전문 모델을 훈련하고, OpenDeepThink는 더 스마트한 추론 루프를 갖춘 범용 LLM을 사용합니다.

자주 묻는 질문

병렬 추론 맥락에서 Bradley-Terry 집계란 무엇입니까?

Bradley-Terry는 페어와이즈 비교를 위한 통계 모델입니다. OpenDeepThink는 포인트와이즈 LLM 판정 대신 이를 사용합니다. LLM이 후보 쌍을 판정하면 투표가 Bradley-Terry 통계 모델을 통해 글로벌 랭킹으로 집계되고, 상위 후보가 유지되어 비교에서 도출된 자연어 비평을 통해 변이됩니다.

CF-73 데이터셋이란 무엇입니까?

CF-73은 그랜드마스터 주석이 달린 73개의 전문가 평가 Codeforces 문제로 구성된 엄선된 데이터셋입니다. OpenDeepThink 팀이 향후 추론 연구를 위한 공개 평가 리소스로 발표했습니다.

arXiv:2605.15177 OpenDeepThink: Bradley-Terry 집계 기반 병렬 추론으로 Gemini 3.1 Pro의 Codeforces Elo +405 향상

병렬 추론의 선택 병목은 무엇입니까?

Bradley-Terry 생성 루프는 어떻게 작동합니까?

논문이 구체적으로 제시하는 수치는 무엇입니까?

CF-73 데이터셋은 무엇을 가져옵니까?

자주 묻는 질문

출처

관련 뉴스