TxBench-PP: AI 에이전트와 신약 개발 (2026년 6월)

TxBench-PP는 4,800개의 궤적과 11개 모델을 통해 소분자 전임상 약리학에서 AI 에이전트의 성능을 검증하는 벤치마크입니다. Claude Opus 4.8이 59.3%의 성공률로 선두이며 GPT-5.5가 55.3%로 뒤따르지만, 어떤 모델도 의료 적용에 충분한 신뢰 수준에는 도달하지 못했습니다.

AI 신약 개발 테스트의 새로운 기준

전임상 약리학은 인체 임상 시험에 앞선 약물 연구 단계로, 잠재적 치료 분자의 안전성, 독성 및 작용 기전을 연구합니다. arXiv:2606.19245에서 발표된 TxBench-PP는 바로 이 단계를 겨냥하여 AI 에이전트가 이 까다로운 분야에서 얼마나 나아갈 수 있는지를 체계적으로 측정합니다. 100개의 평가 과제와 4,800개의 궤적——에이전트가 취하는 단계의 순서——은 이 분야에서 가장 포괄적인 테스트 중 하나가 되었습니다.

Claude Opus 4.8 선두이나, 신뢰성과의 격차는 여전히 크다

11개 테스트 모델의 결과는 명확한 순위를 보여 주지만, 공통된 문제도 드러냅니다. Claude Opus 4.8은 59.3%의 성공률（300회 시도 중 178회 성공; 95% 신뢰구간 51.1%-67.6%）을 달성하여 이 그룹에서 가장 우수한 모델이 되었습니다. GPT-5.5가 **55.3%**로 뒤따릅니다. 거의 4퍼센트포인트의 차이는 작아 보일 수 있지만, 제약 연구 맥락에서는 비용이 많이 드는 실험 실수가 줄어든다는 의미입니다. 그러나 연구자들의 핵심 결론은 두 모델 모두에 동일합니다. 어떤 모델도 연구 프로토콜에서 독립적 사용에 신뢰할 수 없습니다.

절반 이상의 오류율이 표준이 되어서는 안 된다

왜 59%로는 부족할까요? 각 잘못된 연구 방향이 수 주간의 작업과 수십만 유로의 비용을 초래할 수 있는 실험실 환경에서, 거의 두 과제에 하나꼴로 오류를 범하는 모델은 숙련된 연구원을 대체할 수 없습니다——엄격한 검증이 필요한 보조 도구에 불과합니다. 저자들은 TxBench-PP가 모델을 나쁘게 보이게 하려는 것이 아니라 구체적인 약점을 식별하기 위해 설계되었다고 강조합니다. 에이전트들은 특히 약동학 데이터와 독성 프로파일을 통합해야 하는 과제에서 저조한 성과를 보입니다.

미래 개선을 위한 로드맵으로서의 벤치마크

TxBench-PP는 신약 개발（drug discovery）AI 도구의 구조적 개선을 위한 길을 열었습니다. Exscientia, Recursion Pharmaceuticals, Insilico Medicine 같은 제약 회사들은 이미 초기 연구 단계에 AI를 통합하고 있지만, 지금까지 표준화된 척도가 없었습니다. 이 벤치마크는 새 모델을 평가하기 위한 기준점이 될 수 있으며, 현재의 59%와 안전한 임상 적용에 필요한 수준 사이의 격차를 메울 수 있는 특화된 미세 조정의 동기가 될 수 있습니다.

자주 묻는 질문

왜 어떤 AI 모델도 전임상 약리학에서 신뢰할 수 없습니까?

선도 모델인 Claude Opus 4.8조차 TxBench-PP 테스트에서 59.3%의 성공률만 달성했습니다. 이는 거의 두 답변에 하나가 틀릴 수 있다는 의미이며, 신약 개발에서 이 수준의 오류율은 독립적 적용에 허용되지 않습니다.

TxBench-PP 벤치마크는 무엇을 측정하며 기존 의료 AI 테스트와 어떻게 다릅니까?

TxBench-PP는 4,800개의 궤적을 통해 소분자 전임상 약리학에 관한 100개 과제에서 AI 에이전트를 평가하며, 인체 시험 이전 약물 연구 단계 특유의 다단계 추론을 중점적으로 검토합니다.

arXiv:2606.19245: TxBench-PP——AI 에이전트, 신약 개발에 도전하다

AI 신약 개발 테스트의 새로운 기준

Claude Opus 4.8 선두이나, 신뢰성과의 격차는 여전히 크다

절반 이상의 오류율이 표준이 되어서는 안 된다

미래 개선을 위한 로드맵으로서의 벤치마크

자주 묻는 질문

출처

관련 뉴스