BioMiner: AI가 11,683편 논문에서 생물활성 추출, 5.59배 빠름

Jiaxian Yan 연구팀은 2026년 4월 23일 BioMiner를 발표했습니다——과학 문헌에서 단백질-리간드 생물활성 데이터를 자동 추출하는 멀티모달 AI 시스템입니다. 텍스트, 표, 분자 구조를 처리하며 새로운 벤치마크 BioVista(500편 논문 16,457개 항목)에서 F1 0.32를 달성하고, 시연 애플리케이션에서 11,683편 논문으로부터 82,262개 데이터를 추출했습니다.

Jiaxian Yan을 중심으로 한 대규모 팀(Jintao Zhu, Yuhang Yang, Qi Liu, Kai Zhang, Zaixi Zhang, Xukai Liu, Boyan Zhang, Kaiyuan Gao, Jinchuan Xiao, Enhong Chen 포함)은 2026년 4월 23일 논문 “BioMiner: A Multi-modal System for Automated Mining of Protein-Ligand Bioactivity Data from Literature”(arXiv:2604.21508)를 발표했습니다. 이 연구는 현대 신약 발굴 과정에서 가장 어려운 병목 중 하나를 겨냥합니다.

수동 데이터 추출이 왜 병목입니까?

신약 개발은 단백질-리간드 생물활성 데이터——특정 분자가 표적 단백질에 얼마나 강하게 결합하는지 보여주는 표——에 의존합니다. 이 데이터는 수만 편의 과학 논문에 흩어져 있으며, 보통 텍스트(프로토콜 설명), 표(IC50/Ki 수치), 이미지(분자 구조, 구조적으로 관련된 화합물 클래스를 나타내는 소위 Markush 표기법)의 조합으로 제시됩니다. 논문 한 편의 수동 큐레이션에 수 시간이 걸릴 수 있으며, 문헌 발표 속도를 따라갈 수 없습니다.

BioMiner는 어떻게 작동합니까?

시스템은 명시적으로 의미론적 해석과 구조 구성을 분리합니다. 생물활성 의미론을 위해 BioMiner는 LLM 추론을 직접 사용합니다. 화학 구조를 위해 저자들은 화학 구조 기반 시각적 의미론적 추론 패러다임을 도입합니다: 멀티모달 LLM이 화학 규칙에 기초한 시각적 표현으로 작동하여 상호 관계를 도출하고, 정확한 분자 구성은 전문 화학 도구(RDKit 유형 소프트웨어)에 위임됩니다. 이 점이 중요한데, LLM 자체는 구조적으로 불가능한 분자를 자주 환각하기 때문입니다.

구체적인 결과는 무엇입니까?

저자들은 500편 논문에서 16,457개 생물활성 항목으로 구성된 새로운 벤치마크 BioVista를 구축했습니다——커뮤니티에 대한 중요한 기여입니다. BioMiner는 이 벤치마크에서 생물활성 삼중항에 대해 F1 0.32를 달성했으며, 저자들은 이를 해당 작업의 첫 번째 정량적 기준선으로 제시합니다.

실용적 가치는 세 가지 응용 사례를 통해 입증됩니다:

11,683편 논문에서 82,262개 데이터 추출 — 다운스트림 모델을 3.9% 개선하는 사전 학습 데이터베이스
인간 참여 NLRP3 워크플로 — 고품질 생물활성 기록을 두 배로 늘리고, 28개 QSAR 모델에서 38.6% 개선, 16개 히트 후보 물질 식별(새 스캐폴드 포함)
PoseBusters 주석 — 수동 작업 대비 5.59배 빠르고 5.75% 정확도 향상

제약 업계의 상업적 가치

제약 회사에게 이것은 단순한 학술 논문이 아닙니다——전임상 워크플로에 직접 영향을 미칩니다. 데이터 큐레이션에 소요되는 시간이 줄면 실제 약물 화학 작업에 더 많은 시간을 할애할 수 있고, 더 큰 훈련 데이터베이스는 더 정확한 QSAR 모델과 더 좋은 리드 화합물 선별로 이어집니다. NLRP3(염증 질환 관련 표적)의 새로운 스캐폴드 식별은 이 도구가 후보 약물 파이프라인에 직접 기여할 수 있는 구체적인 예입니다.

자주 묻는 질문

신약 개발에서 수동 데이터 마이닝이 병목인 이유는 무엇입니까?

제약 회사와 학술 연구자들은 화합물 생물활성 데이터——IC50, Ki, Kd 값과 리간드 구조——를 추출하기 위해 수천 편의 논문을 수동으로 읽어야 합니다. 논문 한 편 처리에 수 시간이 걸릴 수 있으며, 문헌은 기하급수적으로 증가하고 있습니다. BioMiner는 이를 자동화합니다.

BioMiner에서 멀티모달이란 무엇을 의미합니까?

시스템이 텍스트(실험 프로토콜 설명), 표(생물활성 수치), 이미지(분자 구조, Markush 구조 포함)를 동시에 해석합니다——생물활성 데이터는 과학 논문에서 다양한 형태로 분산되어 있으므로 세 가지 모달리티가 모두 필요합니다.

제약 업계에서의 상업적 가치는 무엇입니까?

인간 참여 파일럿 프로젝트에서 BioMiner는 고품질 NLRP3 데이터를 두 배로 늘리고, 28개 QSAR 모델에서 38.6% 개선을 가져왔으며, 새로운 스캐폴드를 가진 16개의 히트 후보 물질을 식별했습니다——이는 신약 발굴 파이프라인에 대한 직접적인 기여입니다.

arXiv:2604.21508 BioMiner: 멀티모달 AI가 문헌에서 단백질-리간드 생물활성 추출, 수동 작업 대비 5.59배 빠름

수동 데이터 추출이 왜 병목입니까?

BioMiner는 어떻게 작동합니까?

구체적인 결과는 무엇입니까?

제약 업계의 상업적 가치

자주 묻는 질문

출처

관련 뉴스