🔴 🏥 实践应用 2026年5月1日星期五 · 2 分钟阅读 ·

DeepMind AI协同临床医生:盲法评估98个初级保健查询,医生更偏好该系统,97/98例零严重错误

编辑插图:AI智能体在临床场景中协助医生为患者提供服务,配有医疗设备

Google DeepMind于2026年4月30日宣布AI协同临床医生研究计划——在医生临床监督下,AI智能体协助患者的三元护理模型。在98个真实初级保健查询的盲法头对头评估中,医生一致偏好协同临床医生的回答而非两款领先的证据综合工具,该系统在97/98例中记录零严重错误。

Google DeepMind于2026年4月30日正式宣布AI协同临床医生研究计划,作者将其描述为「三元护理」范式——AI智能体在其医生的临床权威下协助患者进行护理。这一理念旨在扩展医疗团队的覆盖范围,同时确保医生保留对决策的判断和控制。该计划建立在DeepMind早期在MedPaLM(医学知识测试)和AMIE(可行性研究中模拟患者医疗咨询)工作的基础上。

三元护理在实践中意味着什么?

三元护理是患者-医生-AI智能体的三元组,AI作为「场上新队员」而非医生替代者。医学历来是团队运动,作者Alan Karthikesalingam、Vivek Natarajan和Pushmeet Kohli论证道——AI智能体可以为团队带来更多成员,而临床医生仍然承担医疗责任。该系统在两个独立方向上进行设计和测试:支持医生(面向临床医生)和与患者沟通(面向患者)。

作者如何测量回答质量?

DeepMind与学术医生合作调整了NOHARM框架,一种分别测量「作为错误」(错误信息)和「遗漏错误」(遗漏关键信息)的方法。在盲法头对头评估中,医生一致偏好AI协同临床医生的回答而非领先的证据综合工具。对98个真实初级保健查询进行的客观分析显示,系统在97个案例中记录了零严重错误,这是对医生广泛使用的两个AI系统的改进。

查询质量和方法论如何?

该研究使用了从不同来源收集并经医生小组精炼的98个真实初级保健查询进行盲法比较。多步骤迭代过程包括背景研究和开发针对每个查询的特定指标,从而能够精确测量共识遗漏和作为错误。目标是确保评估反映真实临床决策的复杂性,而不是在简化案例上测试系统。

为何这是一个转折点?

大多数以往的医学AI结果都是在考试题或模拟咨询模式下取得的。协同临床医生首次将自己定位为诊所中的一个组件,医生保留权威,AI智能体在其旁边工作——DeepMind认为这是临床采用的先决条件。世界卫生组织预计到2030年全球卫生工作者短缺将超过1000万,这使这种规模化在经济上成为必要,而评估结果表明AI不再仅仅是补充医学知识测试的助手。

常见问题

什么是三元护理模型?
患者-医生-AI智能体三元组,AI作为「场上新队员」而非医生替代者。医生保留判断和控制权,AI扩展团队的覆盖范围——DeepMind将其描述为场上的新队友,而非替代品。
AI协同临床医生在评估中犯了多少严重错误?
系统在98个真实初级保健查询中的97个中记录了零严重错误,超越了医生目前在实践中使用的两个AI系统。
什么是NOHARM框架?
一种用于测试医学AI系统的方法论框架,分别测量因错误信息导致的错误(作为错误)和因遗漏关键信息导致的错误(遗漏错误)。DeepMind与学术医生合作将其适用于协同临床医生评估。
🤖

本文由人工智能基于一手来源生成。