arXiv:2606.19245:TxBench-PP——AI智能体探索新药研发
TxBench-PP是一个通过4800条轨迹、测试11个模型来评估AI智能体在小分子临床前药理学表现的基准测试。Claude Opus 4.8以59.3%的成功率领先,GPT-5.5以55.3%紧随其后,但没有任何模型达到足够可靠的医学应用水平。
本文由人工智能基于一手来源生成。
AI药物研发测试的新标准
临床前药理学是指先于人体试验的药物研究阶段——在此阶段研究潜在治疗分子的安全性、毒性和作用机制。arXiv:2606.19245中提出的TxBench-PP正是针对这一阶段,系统测量AI智能体在这一高要求领域能走多远。100个评估任务和4800条轨迹——智能体所采取的步骤序列——使其成为同类测试中最全面的之一。
Claude Opus 4.8领先,但与可靠性的差距依然巨大
11个测试模型的结果显示出明确的排名,但也暴露出共同的问题。Claude Opus 4.8取得59.3%的成功率(300次尝试中178次成功;95%置信区间51.1%-67.6%),成为该组中表现最佳的模型。GPT-5.5以**55.3%**紧随其后。近4个百分点的差距看似微小,但在药物研究背景下,这意味着减少了更多昂贵的实验失误。然而研究人员的核心结论对两款模型都相同:没有任何模型可靠到足以在研究方案中独立使用。
超过一半的错误率不应成为标准
为何59%还不够?在实验室环境中,每一个错误的研究方向都可能耗费数周时间和数十万欧元,一个在几乎每两个任务中就出错一个的模型无法取代资深研究员——它只是一个需要严格核查的辅助工具。作者强调,TxBench-PP并非为了让模型显得不佳,而是为了识别具体的弱点:智能体在需要整合药代动力学数据与毒理学特征的任务上表现尤为不理想。
基准测试作为未来改进的路线图
TxBench-PP为AI药物研发(drug discovery)工具的结构化改进开辟了道路。Exscientia、Recursion Pharmaceuticals和Insilico Medicine等制药公司已将AI整合到早期研究阶段,但迄今缺乏标准化衡量标准。这一基准可以成为评估新模型的参照点——也可以成为专项微调的动力,有望弥合当前59%与安全临床应用所需水平之间的差距。
常见问题
- 为何没有任何AI模型在临床前药理学中可靠?
- 即便是领先的Claude Opus 4.8在TxBench-PP测试中也仅达到59.3%的成功率,这意味着几乎每隔一个答案就可能出错——在药物研发中,如此高的错误率无法支持独立应用。
- TxBench-PP基准测试衡量什么,它与以往的医疗AI测试有何不同?
- TxBench-PP通过4800条轨迹评估AI智能体在100个小分子临床前药理学任务上的表现,重点在于多步推理,专注于人体试验前的药物研究阶段。