BioMiner：AI从11,683篇论文提取生物活性，速度快5.59倍

由Jiaxian Yan领导的研究团队于2026年4月23日发表了BioMiner——一个用于从科学文献中自动提取蛋白质-配体生物活性数据的多模态AI系统。该系统处理文本、表格和分子结构，在新基准BioVista（来自500篇论文的16,457条条目）上达到F1 0.32，并在演示应用中从11,683篇论文中提取了82,262条数据。

由Jiaxian Yan领导的大型团队（包括Jintao Zhu、Yuhang Yang、Qi Liu、Kai Zhang、Zaixi Zhang、Xukai Liu、Boyan Zhang、Kaiyuan Gao、Jinchuan Xiao和Enhong Chen）于2026年4月23日发表了论文**《BioMiner: A Multi-modal System for Automated Mining of Protein-Ligand Bioactivity Data from Literature》**（arXiv:2604.21508）。该研究针对当代药物发现过程中最困难的瓶颈之一。

为什么人工数据提取是瓶颈？

新药研发依赖蛋白质-配体生物活性数据——显示特定分子与靶蛋白结合强度的表格。这些数据散布在数万篇科学论文中，通常以文本（实验方案描述）、表格（IC50/Ki数值）和图像（分子结构，常用所谓Markush符号表示结构相关化合物类别）的组合形式呈现。手动整理一篇论文可能需要数小时——这个速度无法跟上文献发表的步伐。

BioMiner如何工作？

该系统明确将语义解释与结构构建分离。对于生物活性语义，BioMiner直接利用LLM推理。对于化学结构，作者引入了基于化学结构的视觉语义推理范式：多模态LLM基于化学规则的视觉表示进行操作并推导相互关系，而精确的分子构建委托给专门的化学工具（RDKit类软件）。这一点很重要，因为LLM本身经常会产生结构上不可能存在的分子幻觉。

具体结果如何？

作者建立了新基准BioVista，包含来自500篇论文的16,457条生物活性条目——这对社区是重要贡献。BioMiner在该基准上的生物活性三元组F1得分为0.32，作者将其作为该任务的首个定量基线。

实用价值通过三个应用场景得到展示：

从11,683篇论文提取82,262条数据 — 改善下游模型**3.9%**的预训练数据库
人机协作NLRP3工作流 — 高质量生物活性记录翻倍，28个QSAR模型改善38.6%，识别出16个苗头候选化合物（含新骨架）
PoseBusters注释 — 比人工快5.59倍，准确率高出5.75%

制药商业价值

对于制药公司而言，这不仅仅是一篇学术论文——它直接影响临床前工作流程。减少数据整理时间意味着有更多时间用于真正的药物化学工作，更大的训练数据库意味着更精确的QSAR模型和更好的先导化合物筛选。识别NLRP3（与炎症疾病相关靶点）的新骨架，是该工具如何直接为候选药物管线做出贡献的具体例子。

常见问题

药物发现中人工数据挖掘为什么是瓶颈？

制药公司和学术研究人员需要手动阅读数千篇论文才能提取化合物生物活性数据——IC50、Ki、Kd值和配体结构。每篇论文的处理可能需要数小时，而文献量正在呈指数级增长。BioMiner实现了这一过程的自动化。

BioMiner中的多模态是什么意思？

该系统同时解读文本（实验描述）、表格（生物活性数值）和图像（分子结构，包括Markush结构）——三种模态都是必要的，因为生物活性数据在科学论文中以不同形式呈现。

药物研发的商业价值是什么？

在人机协作试点项目中，BioMiner将高质量NLRP3数据量翻倍，在28个QSAR模型上实现38.6%的改进，并识别出16个具有新骨架的苗头候选化合物——这直接输入药物发现流程。

arXiv:2604.21508 BioMiner：多模态AI从文献中提取蛋白质-配体生物活性，比人工快5.59倍

为什么人工数据提取是瓶颈？

BioMiner如何工作？

具体结果如何？

制药商业价值

常见问题

来源

相关新闻