🟢 ✨ 趣闻 2026年4月27日星期一 · 2 分钟阅读

arXiv:2604.21508 BioMiner:多模态AI从文献中提取蛋白质-配体生物活性,比人工快5.59倍

arXiv:2604.21508 ↗

ArXiv 2604.21508 BioMiner:多模态AI从文献中提取蛋白质-配体生物活性,比人工快5.59倍

为什么重要

由Jiaxian Yan领导的研究团队于2026年4月23日发表了BioMiner——一个用于从科学文献中自动提取蛋白质-配体生物活性数据的多模态AI系统。该系统处理文本、表格和分子结构,在新基准BioVista(来自500篇论文的16,457条条目)上达到F1 0.32,并在演示应用中从11,683篇论文中提取了82,262条数据。

Jiaxian Yan领导的大型团队(包括Jintao Zhu、Yuhang Yang、Qi Liu、Kai Zhang、Zaixi Zhang、Xukai Liu、Boyan Zhang、Kaiyuan Gao、Jinchuan Xiao和Enhong Chen)于2026年4月23日发表了论文**《BioMiner: A Multi-modal System for Automated Mining of Protein-Ligand Bioactivity Data from Literature》**(arXiv:2604.21508)。该研究针对当代药物发现过程中最困难的瓶颈之一。

为什么人工数据提取是瓶颈?

新药研发依赖蛋白质-配体生物活性数据——显示特定分子与靶蛋白结合强度的表格。这些数据散布在数万篇科学论文中,通常以文本(实验方案描述)、表格(IC50/Ki数值)和图像(分子结构,常用所谓Markush符号表示结构相关化合物类别)的组合形式呈现。手动整理一篇论文可能需要数小时——这个速度无法跟上文献发表的步伐。

BioMiner如何工作?

该系统明确将语义解释与结构构建分离。对于生物活性语义,BioMiner直接利用LLM推理。对于化学结构,作者引入了基于化学结构的视觉语义推理范式:多模态LLM基于化学规则的视觉表示进行操作并推导相互关系,而精确的分子构建委托给专门的化学工具(RDKit类软件)。这一点很重要,因为LLM本身经常会产生结构上不可能存在的分子幻觉。

具体结果如何?

作者建立了新基准BioVista,包含来自500篇论文16,457条生物活性条目——这对社区是重要贡献。BioMiner在该基准上的生物活性三元组F1得分为0.32,作者将其作为该任务的首个定量基线。

实用价值通过三个应用场景得到展示:

  1. 从11,683篇论文提取82,262条数据 — 改善下游模型**3.9%**的预训练数据库
  2. 人机协作NLRP3工作流 — 高质量生物活性记录翻倍,28个QSAR模型改善38.6%,识别出16个苗头候选化合物(含新骨架)
  3. PoseBusters注释 — 比人工快5.59倍,准确率高出5.75%

制药商业价值

对于制药公司而言,这不仅仅是一篇学术论文——它直接影响临床前工作流程。减少数据整理时间意味着有更多时间用于真正的药物化学工作,更大的训练数据库意味着更精确的QSAR模型和更好的先导化合物筛选。识别NLRP3(与炎症疾病相关靶点)的新骨架,是该工具如何直接为候选药物管线做出贡献的具体例子。

🤖

本文由人工智能基于一手来源生成。