AI2: AI 에이전트는 교과서 과학의 80%를 풀지만, 실제 과학 문제는 20%에 불과합니다

Allen Institute for AI(AI2)가 현재 AI 시스템의 능력에서 가장 중요한 격차 중 하나를 밝히는 분석을 발표했습니다 — “교과서적 지식”과 실제 과학적 발견을 수행하는 능력 사이의 차이입니다.

두 개의 벤치마크, 두 개의 이야기

ScienceWorld는 가상 환경에서 기초 과학 실험을 테스트합니다 — 끓는점 측정, 유전 교배 등입니다. 흥미롭게도 동일한 주제의 객관식 문제에서 우수한 성적을 보인 모델이 ScienceWorld에서는 처음에 10% 이하로 떨어졌습니다. 2025년 초까지 최상위 모델은 **약 80%**에 도달했지만, 초등학교 4학년 수준의 내용으로서는 아직 완벽하지 않습니다.

DiscoveryWorld는 훨씬 더 까다롭습니다 — 8개 과학 분야(단백질체학, 역학, 방사성 동위원소 연대 측정 등)에 걸친 120개의 과제로, 가설 수립, 실험 설계, 실행 및 분석을 요구합니다. 암기된 지식에 의존하는 것을 방지하기 위해 과제는 가상의 맥락에 배치됩니다.

충격적인 비교

더 복잡한 DiscoveryWorld 과제에서 AI 에이전트는 약 20%의 과제만 완료하는 반면, 고급 학위를 가진 인간 과학자는 **약 70%**를 해결합니다. 이 50 퍼센트포인트의 격차는 “사실을 아는 것”에서 “사실을 발견에 활용할 줄 아는 것”까지의 거리가 얼마나 먼지를 명확히 보여줍니다.

이것이 의미하는 바

이러한 결과는 과학 분야에서의 AI에 대한 열풍 속에서 중요한 현실 점검을 제공합니다. AI 시스템은 데이터 처리와 패턴 인식에는 탁월하지만, 새로운 실험을 고안하고, 일이 계획대로 되지 않을 때 적응하며, 창의적으로 사고하는 능력은 여전히 근본적으로 인간 고유의 역량입니다.

AI2: AI 에이전트는 교과서 과학의 80%를 풀지만, 실제 과학 문제는 20%에 불과합니다

두 개의 벤치마크, 두 개의 이야기

충격적인 비교

이것이 의미하는 바

출처

관련 뉴스