LongCoT 벤치마크란 무엇인가요?

화학·수학·컴퓨터과학·체스·논리에 걸친 2,500개의 전문가 설계 문제를 포함한 벤치마크로, 수만에서 수십만 토큰이 필요한 chain-of-thought 추론을 테스트합니다.

프론티어 모델들이 LongCoT에서 왜 그렇게 낮은 점수를 받나요?

개별 풀이 단계는 해결 가능하지만, 수천 단계의 전체 시퀀스에서 일관된 추론을 유지하는 것이 여전히 중요한 약점입니다——GPT 5.2는 겨우 9.8%를 달성합니다.

ArXiv: LongCoT 벤치마크에서 GPT 5.2가 긴 chain-of-thought 추론에서 겨우 9.8% 달성

옥스퍼드대학교, 로렌스 리버모어 국립 연구소, AI 안전 연구소의 국제 연구팀이 LongCoT를 발표했습니다——AI 모델의 긴 chain-of-thought(CoT) 추론 능력을 테스트하는 새 벤치마크입니다. 결과는 가장 발전된 모델에서도 우려스러운 약점을 드러냈습니다.

LongCoT는 무엇을 측정하나요?

벤치마크는 다섯 개 도메인에 걸친 2,500개의 전문가 설계 문제를 포함합니다: 화학, 수학, 컴퓨터과학, 체스, 논리. 기존 벤치마크와의 핵심 차이점은 문제가 수만에서 수십만 토큰에 걸친 chain-of-thought를 요구한다는 것——일반적인 짧은 추론 작업을 훨씬 초과합니다.

문제는 프론티어 모델이 개별 단계는 해결할 수 있도록 설계되어 있지만, 전체 시퀀스는 확장된 추론——컨텍스트를 잃거나 오류를 누적하지 않고 긴 단계 시퀀스를 통해 일관된 사고를 유지하는 능력——을 요구합니다.

결과가 얼마나 우려스러운가요?

현재 프론티어 모델들은 크게 실패합니다: GPT 5.2는 겨우 9.8%, Gemini 3 Pro는 더 낮은 **6.1%**에 그칩니다. 이는 가장 유능한 AI 모델들도 긴 일관된 추론이 필요한 문제의 10개 중 1개 이상을 해결하지 못함을 의미합니다.

이 발견은 자율적인 작업을 위한 AI 에이전트 활용이 증가하는 맥락에서 특히 중요합니다. 디버깅 세션부터 연구 프로세스까지, 다단계 작업을 계획하고 실행해야 하는 에이전트는 바로 긴 일관된 추론 능력에 의존합니다.

AI 안전에 왜 중요한가요?

저자들은 LongCoT 약점을 AI 에이전트의 자율적 배포에 있어 중요한 문제로 명확히 식별합니다. 모델이 긴 단계 시퀀스를 통해 신뢰성 있게 추론할 수 없다면, 자율 에이전트는 복잡한 작업의 후반 단계에서 잘못된 결정을 내릴 수 있습니다——바로 결과가 가장 심각한 곳에서.

벤치마크는 또한 현재의 모델 스케일링 접근 방식이 긴 추론 문제를 자동으로 해결하지 않는다는 것을 시사합니다. 모델이 짧은 chain-of-thought와 긴 chain-of-thought 추론 사이의 간극을 메우기 위해서는 근본적으로 새로운 아키텍처 혁신 또는 훈련 방법이 필요합니다.

ArXiv: LongCoT 벤치마크에서 GPT 5.2가 긴 chain-of-thought 추론에서 겨우 9.8% 달성

LongCoT는 무엇을 측정하나요?

결과가 얼마나 우려스러운가요?

AI 안전에 왜 중요한가요?

출처

관련 뉴스