ArXiv: LongCoT 벤치마크에서 GPT 5.2가 긴 chain-of-thought 추론에서 겨우 9.8% 달성

LongCoT는 다섯 개 도메인에 걸친 2,500개의 전문가 설계 문제를 포함한 새 벤치마크로, 수만에서 수십만 토큰이 필요할 수 있는 긴 chain-of-thought 추론 능력을 테스트합니다. 현재 프론티어 모델들은 GPT 5.2가 9.8%, Gemini 3 Pro가 6.1%에 그치며 크게 실패하여, 자율적 AI 에이전트 배포의 중요한 약점을 드러냈습니다.

옥스퍼드대학교, 로렌스 리버모어 국립 연구소, AI 안전 연구소의 국제 연구팀이 LongCoT를 발표했습니다——AI 모델의 긴 chain-of-thought(CoT) 추론 능력을 테스트하는 새 벤치마크입니다. 결과는 가장 발전된 모델에서도 우려스러운 약점을 드러냈습니다.

LongCoT는 무엇을 측정하나요?

벤치마크는 다섯 개 도메인에 걸친 2,500개의 전문가 설계 문제를 포함합니다: 화학, 수학, 컴퓨터과학, 체스, 논리. 기존 벤치마크와의 핵심 차이점은 문제가 수만에서 수십만 토큰에 걸친 chain-of-thought를 요구한다는 것——일반적인 짧은 추론 작업을 훨씬 초과합니다.

문제는 프론티어 모델이 개별 단계는 해결할 수 있도록 설계되어 있지만, 전체 시퀀스는 확장된 추론——컨텍스트를 잃거나 오류를 누적하지 않고 긴 단계 시퀀스를 통해 일관된 사고를 유지하는 능력——을 요구합니다.

결과가 얼마나 우려스러운가요?

현재 프론티어 모델들은 크게 실패합니다: GPT 5.2는 겨우 9.8%, Gemini 3 Pro는 더 낮은 **6.1%**에 그칩니다. 이는 가장 유능한 AI 모델들도 긴 일관된 추론이 필요한 문제의 10개 중 1개 이상을 해결하지 못함을 의미합니다.

이 발견은 자율적인 작업을 위한 AI 에이전트 활용이 증가하는 맥락에서 특히 중요합니다. 디버깅 세션부터 연구 프로세스까지, 다단계 작업을 계획하고 실행해야 하는 에이전트는 바로 긴 일관된 추론 능력에 의존합니다.

AI 안전에 왜 중요한가요?

저자들은 LongCoT 약점을 AI 에이전트의 자율적 배포에 있어 중요한 문제로 명확히 식별합니다. 모델이 긴 단계 시퀀스를 통해 신뢰성 있게 추론할 수 없다면, 자율 에이전트는 복잡한 작업의 후반 단계에서 잘못된 결정을 내릴 수 있습니다——바로 결과가 가장 심각한 곳에서.

벤치마크는 또한 현재의 모델 스케일링 접근 방식이 긴 추론 문제를 자동으로 해결하지 않는다는 것을 시사합니다. 모델이 짧은 chain-of-thought와 긴 chain-of-thought 추론 사이의 간극을 메우기 위해서는 근본적으로 새로운 아키텍처 혁신 또는 훈련 방법이 필요합니다.

자주 묻는 질문

LongCoT 벤치마크란 무엇인가요?

화학·수학·컴퓨터과학·체스·논리에 걸친 2,500개의 전문가 설계 문제를 포함한 벤치마크로, 수만에서 수십만 토큰이 필요한 chain-of-thought 추론을 테스트합니다.

프론티어 모델들이 LongCoT에서 왜 그렇게 낮은 점수를 받나요?

개별 풀이 단계는 해결 가능하지만, 수천 단계의 전체 시퀀스에서 일관된 추론을 유지하는 것이 여전히 중요한 약점입니다——GPT 5.2는 겨우 9.8%를 달성합니다.

ArXiv: LongCoT 벤치마크에서 GPT 5.2가 긴 chain-of-thought 추론에서 겨우 9.8% 달성

LongCoT는 무엇을 측정하나요?

결과가 얼마나 우려스러운가요?

AI 안전에 왜 중요한가요?

자주 묻는 질문

출처

관련 뉴스