BioMysteryBench：Mythos Preview, 인간 전문가 초월

Anthropic은 2026년 4월 29일 BioMysteryBench를 공개했습니다. 이는 실험 데이터의 객관적인 정답을 활용한 99개의 전문 생물정보학 과제로 구성된 평가 프레임워크입니다. Claude Opus 4.6은 인간이 풀 수 있는 76개 문제에서 약 77.4%, 23개의 초인간적 과제에서 23.5%를 달성했으며, Mythos Preview는 인간 전문가 패널이 풀지 못한 문제들을 해결했습니다. 연구자들은 이를 AI가 생명과학 분야에서 이룬 분수령적 순간으로 묘사하고 있습니다.

Anthropic은 2026년 4월 29일 BioMysteryBench를 발표했습니다. 이는 AI 모델의 생물정보학 능력을 평가하기 위한 새로운 평가 프레임워크입니다. 벤치마크에는 도메인 전문가들이 제작한 99개의 과제가 포함되어 있으며, 실제 실험에서 얻은 지저분한 데이터를 사용하고 실험적 발견의 객관적 정답에 따라 답변을 채점합니다. 이 접근법은 과학적 평가의 세 가지 핵심 문제를 직접 해결합니다. 다양한 방법론적 접근을 허용하는 것, 객관적인 답이 존재하는 것, 그리고 인간 스스로 풀 수 없는 문제를 생성할 수 있는 것입니다.

BioMysteryBench는 주관성 문제를 어떻게 해결하나요?

대부분의 과학 벤치마크는 모델이 과학적 합의에 동의하는지만 측정하여 새로운 발견을 허용하지 않습니다. BioMysteryBench는 “방법 불가지론적” 접근법을 채택합니다. 모델은 자체 분석 도구를 선택하고, 시스템은 최종 수치 또는 범주형 답변을 실제 실험 데이터와 대조하여 확인합니다. 과제의 예로는 single-cell RNA-seq 데이터셋에서 인체 장기 식별, 대조군과 비교한 실험 샘플에서 녹아웃된 유전자 탐지, 전장 유전체 서열분석 데이터에서 가족 관계 확인 등이 있습니다.

Claude 모델은 벤치마크에서 어떤 성적을 거뒀나요?

인간이 풀 수 있는 76개 과제에서 Claude Opus 4.6은 약 77.4%의 정확도를 달성했고, Sonnet 4.6은 약 70%입니다. 경험 많은 생물정보학자 패널도 풀지 못한 23개의 초인간적 과제에서 Opus 4.6은 23.5%를 달성했으며, Mythos Preview는 30%를 해결했습니다. Mythos Preview는 인간 해결 가능 과제 카테고리에서도 선두를 달리고 있습니다. Anthropic은 더 어려운 문제에서 신뢰도가 상당히 저하된다고 지적합니다. 인간 해결 가능 과제에서 Opus 4.6은 5번의 시도 중 최소 4번에서 정답을 제시할 확률이 86%이지만, 초인간적 과제에서는 이 수치가 44%로 떨어져 성공의 거의 절반이 “재현 가능한 것이 아니라 우연히 발생한다”는 것을 시사합니다.

Anthropic이 이를 분수령적 순간이라고 부르는 이유는 무엇인가요?

Mythos Preview는 인간이 이전에 동일한 데이터에서 추출하지 못했던 과학적 결론을 도출합니다. 벤치마크는 아직 프리뷰 단계(Hugging Face의 “Anthropic/BioMysteryBench-preview”)이지만, 이 결과는 AI가 더 이상 기존 워크플로우를 가속화하는 보조자에 그치지 않고 인간 팀이 해결할 수 없는 연구 질문을 자율적으로 해결할 수 있음을 시사합니다. Anthropic은 연구자들에게 claude.com/lifesciences 포털을 통해 모델을 자체 분석에 활용하도록 권장합니다. 게시물 작성자는 디스커버리 팀의 Brianna입니다.

자주 묻는 질문

BioMysteryBench란 무엇인가요?

도메인 전문가들이 제작한 99개의 생물정보학 문제로 구성된 평가 프레임워크입니다. 실제 실험에서 얻은 지저분한 데이터를 사용하며, 주관적인 과학적 판단이 아닌 검증된 메타데이터의 객관적 정답에 따라 답변을 채점합니다.

Claude Opus 4.6의 BioMysteryBench 정확도는 어느 정도인가요?

인간이 풀 수 있는 76개 과제에서 약 77.4%, 23개의 초인간적 과제에서 23.5%입니다. Sonnet 4.6은 인간 해결 가능 카테고리에서 약 70%를 달성합니다.

Mythos Preview는 무엇이 다른가요?

Mythos Preview는 초인간적 과제의 30%를 해결하며, 일부 문제에서 인간 전문가 패널을 능가합니다. Anthropic은 모델이 동일한 데이터에서 인간이 추출하지 못했던 과학적 결론을 도출했기 때문에 이를 분수령적 순간으로 묘사합니다.

BioMysteryBench：Mythos Preview, 전문가도 풀지 못한 생물정보학 문제 해결, Opus 4.6은 인간 해결 과제에서 77.4% 달성

BioMysteryBench는 주관성 문제를 어떻게 해결하나요?

Claude 모델은 벤치마크에서 어떤 성적을 거뒀나요?

Anthropic이 이를 분수령적 순간이라고 부르는 이유는 무엇인가요?

자주 묻는 질문

출처

관련 뉴스