arXiv:2605.22681:CUSP 벤치마크, 프런티어 모델이 과학적 돌파구를 신뢰할 수 있게 예측하지 못함을 입증
CUSP 벤치마크는 4,700개 사건의 데이터베이스로 AI 모델이 과학적 돌파구를 예측하는 능력을 테스트합니다. 프런티어 모델(GPT-5, Claude Opus 4.7, Gemini 3 Pro)은 그럴듯한 연구 방향을 식별하지만 과도한 확신으로 결과와 시기를 체계적으로 추측합니다. 추가적인 마감 전 맥락은 도움이 되지 않습니다——한계는 정보적인 것이 아니라 구조적입니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
2026년 5월 21일 공개된 arXiv 프리프린트는 AI 모델이 과학적 돌파구를 예측하는 능력을 평가하는 벤치마크인 CUSP(선별된 과학적 예측)를 소개합니다. 데이터베이스에는 네 가지 영역의 4,700개 과학적 사건이 포함되어 있습니다:생물의학, 물리학, 기후학, AI 연구. 프런티어 모델——GPT-5, Claude Opus 4.7, Gemini 3 Pro——은 마감 전 맥락(결과가 알려지기 전 공개된 모든 정보)을 사용하여 각 사건에 결과 확률을 할당하는 능력을 테스트받았습니다.
CUSP는 어떻게 질문을 설계합니까?
데이터베이스의 4,700개 사건 각각은 알려진 결과를 가진 이진 질문으로 정형화됩니다:“mRNA 말라리아 백신이 2024년 10월까지 3상에서 >70%의 효능을 달성할 것인가?” “매개변수 수 ≥1T인 오픈 소스 LLM이 2025년 12월까지 공개될 것인가?” “대기 CO₂ 농도가 2024년 12월까지 425ppm을 초과할 것인가?”
모델은 마감일(결과가 알려지기 전 날짜)까지 공개된 모든 정보에 대한 접근권을 받고 「예」 결과의 확률을 평가하도록 요청받습니다. 성능은 Brier 점수(교정 + 판별)와 예측이 실제 결과 빈도와 얼마나 일치하는지 보여주는 교정 곡선으로 측정됩니다.
프런티어 모델의 결과는 무엇입니까?
세 프런티어 모델 모두 Brier 점수 0.18〜0.21을 달성합니다(낮을수록 좋고, 완벽은 0). 비교로, 단순한 「항상 50%」 기준선은 0.25를 주고, 인간 도메인 전문가 평균은 0.14입니다. 모델은 무작위보다 유의미하게 우수하지만 인간 전문가에는 못 미칩니다.
주요 병리는 과도한 확신입니다. 모델은 예측에 90% 확신도를 표시하지만 그러한 예측의 실제 성공률은 60-70%입니다. 95-99% 확신도 범위에서(모델이 거의 확실하다고 주장할 때), 실제 성공률은 GPT-5의 경우 65%, Claude Opus 4.7의 경우 71%로 떨어집니다. 즉, 모델이 「거의 확실히 일어날 것」이라고 말할 때, 실제로는 약 70% 확률로 간주해야 합니다.
”한계는 구조적”이란 무슨 의미입니까?
저자들은 추가적인 마감 전 맥락이 도움이 되는지 테스트했습니다. 추가적인 관련 arXiv 논문, 뉴스 아카이브, 전문가 의견을 제공했습니다——모두 마감 전이라 실제 결과가 「유출」된 것은 없습니다. 성능이 유의미하게 개선되지 않았습니다. Brier 점수는 0.21에서 0.19로 하락——미미한 차이입니다.
저자들은 이것이 한계가 정보 부족이 아님을 의미한다고 해석합니다. 한계는 구조적입니다:모델은 「과학적으로 그럴듯한」과 「실제로 일어날 것」의 차이를 구분하지 못합니다. 모델이 유망한 mRNA 말라리아 백신에 관한 50편의 논문을 읽을 때, 그럴듯함은 감지하지만 운영상의 장벽을 평가할 수 없습니다——3상이 얼마나 걸릴지, FDA가 어떻게 반응할지, 후원자가 확장 예산을 가지고 있을지. 이 정보는 공개 영역에 존재하지만 모델이 추출하는 방법을 모르는 형식입니다.
이것이 과학에서 AI 활용을 어떻게 바꿉니까?
AI 지원 예측의 실제적인 시사점은 구체적입니다. 첫째, AI의 점 확률 추정에 의존하지 마십시오——관련 신호(논문, 데이터, 전문가 진술)를 식별하는 데 AI를 사용하고 통합은 인간 예측자에게 맡기십시오. 둘째, 예측에 AI를 사용한다면 교정을 추가로 검증해야 합니다——「90% 확신도」라고 말하는 모델은 더 나은 것이 입증될 때까지 「70%」로 해석해야 합니다.
셋째, 저자들은 과학적 예측에는 모델에게 예측이 왜 일어나지 않을 수도 있는지 장벽과 이유를 명시적으로 열거하도록 요청하는 구조화된 프롬프팅을 사용할 것을 제안합니다——이는 과도한 확신을 줄이는 데 도움이 되지만 문제를 제거하지는 않습니다.
저자들은 CUSP를 분기별로 새로운 사건으로 업데이트하고 모든 프런티어 모델의 결과를 공개 발표할 것이라고 발표했습니다.
자주 묻는 질문
- CUSP 벤치마크란 무엇입니까?
- CUSP(선별된 과학적 예측)는 생물의학, 물리학, 기후학, AI 연구 분야의 4,700개 과학적 사건을 포함한 벤치마크입니다. 각 사건은 알려진 결과를 가진 이진 질문으로 정형화됩니다(X가 Y까지 일어날 것인가)——모델은 마감 전 맥락을 받아 확률을 평가합니다.
- 과도한 확신(overconfidence)은 무엇을 의미합니까?
- 모델이 예측을 높은 확률(예:90%)로 순위를 매기지만 그러한 예측의 실제 성공률이 낮을 때(예:60%)모델은 과도한 확신을 보입니다. 프런티어 모델은 CUSP에서 체계적인 과도한 확신을 보입니다——70-95% 확신 카테고리에서 교정이 잘 되지 않습니다.
- 왜 추가 맥락이 도움이 되지 않습니까?
- 저자들은 추가적인 마감 전 논문, 뉴스 기사, 데이터를 제공하여 테스트했습니다——성능이 유의미하게 개선되지 않았습니다. 결론:한계는 정보 부족이 아니라 모델이 「과학적으로 그럴듯한」과 「실제로 일어날 것」의 차이를 인식할 수 없는 구조적 무능입니다.