2026년 봄 AstaBench: Claude Opus 4.7이 과학 AI 벤치마크에서 58%로 선두, GPT-5.5는 비용이 절반
Allen 연구소가 과학 AI 에이전트를 위한 2,400개 문제를 포함한 업데이트된 AstaBench 리더보드를 공개했습니다. Claude Opus 4.7이 58.0%로 선두를 달리고, GPT-5.5는 52.9%로 문제당 절반의 비용을 기록합니다. 핵심 발견: 특정 작업에서의 좋은 결과가 자동으로 견고한 엔드투엔드 과학적 연구 능력을 의미하지는 않습니다.
Allen Institute for AI(AI2)는 2026년 4월 30일 과학 연구 맥락에서 AI 에이전트 능력에 대한 지금까지 가장 포괄적인 공개 개요인 업데이트된 AstaBench 리더보드를 공개했습니다.
AstaBench는 과학 AI 모델을 어떻게 평가합니까?
AstaBench는 데이터 분석 및 코딩부터 문헌 합성 및 가설 설정까지, 실제 연구 과제를 시뮬레이션하는 2,400개 이상의 문제를 해결함으로써 AI 에이전트를 평가합니다. 이 벤치마크는 고립된 작업에서의 일반적인 정확도 순위를 넘어서도록 설계되었습니다.
2026년 봄 업데이트는 확장된 모델 세트를 제공하고 경제적 차원을 강조합니다: 정확도 외에도 해결된 문제당 비용도 공개되었습니다.
어떤 모델이 선두이며 가격은 어느 정도입니까?
Claude Opus 4.7(Anthropic)이 58.0%의 점수로 1위를 차지하여 AstaBench 방법론에 따라 엔드투엔드 과학 에이전트 작업 해결의 선도 모델이 되었습니다.
GPT-5.5(OpenAI)는 52.9% — 5.1 퍼센트 포인트 적음 — 를 달성했지만 문제당 비용은 Opus 4.7의 3.54달러에 비해 1.61달러입니다. 실험을 확대하려는 연구팀에게 그 54%의 비용 차이가 결정적 요소가 될 수 있습니다.
핵심 발견: 작업의 높은 점수가 왜 성공을 보장하지 않습니까?
Allen 연구소는 특히 특정 작업(예: 코드 생성 또는 데이터 분석)에서의 좋은 성과가 자동으로 견고한 엔드투엔드 과학적 연구로 변환되지 않는다는 점을 강조합니다.
복잡한 에이전트 시나리오는 다단계 조정, 장기 계획 및 일관된 컨텍스트 추적이 필요합니다. 고립된 하위 작업에서 뛰어난 모델이 그 능력을 일관된 연구 워크플로에 통합해야 할 때 어려움을 겪을 수 있습니다.
더 넓은 맥락과 산업 응용
AstaBench 업데이트는 산업 파트너십에 대한 언급과 함께 제공되어 연구 프로세스에서 AI의 구조화된 평가에 대한 상업 부문의 관심 증가를 나타냅니다.
결과는 연구 기관에 실질적인 질문을 제기합니다: 선도 모델의 더 높은 정확도가 문제당 두 배의 비용을 정당화합니까? 답은 팀이 해결하는 작업의 유형과 규모에 달려 있습니다.
자주 묻는 질문
- AstaBench는 무엇을 측정합니까?
- AstaBench(Allen Institute for AI)는 AI 에이전트가 실제 과학 연구에 전형적인 문제를 해결하는 능력을 측정합니다 — 다양한 과학 분야의 2,400개 이상의 작업을 포함합니다.
- 왜 GPT-5.5가 정확도가 낮음에도 불구하고 Opus 4.7보다 나은 선택일 수 있습니까?
- GPT-5.5는 문제당 1.61달러, Opus 4.7은 3.54달러의 비용이 듭니다 — 정확도 차이가 5.1 퍼센트 포인트에 불과한 상황에서 54%의 비용 차이는 대규모 실험에서 GPT-5.5를 비용 효율적인 선택으로 만듭니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
관련 뉴스
Anthropic, Sonnet 4.5 및 Sonnet 4의 100만 컨텍스트 베타 종료 — 4.6으로 마이그레이션 필수
PyTorch SMG: LLM 서빙에서 CPU와 GPU 분리로 Llama 3.3 70B FP8 출력 처리량 3.5배 달성, Google Cloud, Oracle, Alibaba에서 이미 프로덕션 운영 중
BioMysteryBench:Mythos Preview, 전문가도 풀지 못한 생물정보학 문제 해결, Opus 4.6은 인간 해결 과제에서 77.4% 달성