DeepMind AI协同临床医生：97/98测试中零严重错误

Google DeepMind于2026年4月30日宣布AI协同临床医生研究计划——在医生临床监督下，AI智能体协助患者的三元护理模型。在98个真实初级保健查询的盲法头对头评估中，医生一致偏好协同临床医生的回答而非两款领先的证据综合工具，该系统在97/98例中记录零严重错误。

Google DeepMind于2026年4月30日正式宣布AI协同临床医生研究计划，作者将其描述为「三元护理」范式——AI智能体在其医生的临床权威下协助患者进行护理。这一理念旨在扩展医疗团队的覆盖范围，同时确保医生保留对决策的判断和控制。该计划建立在DeepMind早期在MedPaLM（医学知识测试）和AMIE（可行性研究中模拟患者医疗咨询）工作的基础上。

三元护理在实践中意味着什么？

三元护理是患者-医生-AI智能体的三元组，AI作为「场上新队员」而非医生替代者。医学历来是团队运动，作者Alan Karthikesalingam、Vivek Natarajan和Pushmeet Kohli论证道——AI智能体可以为团队带来更多成员，而临床医生仍然承担医疗责任。该系统在两个独立方向上进行设计和测试：支持医生（面向临床医生）和与患者沟通（面向患者）。

作者如何测量回答质量？

DeepMind与学术医生合作调整了NOHARM框架，一种分别测量「作为错误」（错误信息）和「遗漏错误」（遗漏关键信息）的方法。在盲法头对头评估中，医生一致偏好AI协同临床医生的回答而非领先的证据综合工具。对98个真实初级保健查询进行的客观分析显示，系统在97个案例中记录了零严重错误，这是对医生广泛使用的两个AI系统的改进。

查询质量和方法论如何？

该研究使用了从不同来源收集并经医生小组精炼的98个真实初级保健查询进行盲法比较。多步骤迭代过程包括背景研究和开发针对每个查询的特定指标，从而能够精确测量共识遗漏和作为错误。目标是确保评估反映真实临床决策的复杂性，而不是在简化案例上测试系统。

为何这是一个转折点？

大多数以往的医学AI结果都是在考试题或模拟咨询模式下取得的。协同临床医生首次将自己定位为诊所中的一个组件，医生保留权威，AI智能体在其旁边工作——DeepMind认为这是临床采用的先决条件。世界卫生组织预计到2030年全球卫生工作者短缺将超过1000万，这使这种规模化在经济上成为必要，而评估结果表明AI不再仅仅是补充医学知识测试的助手。

常见问题

什么是三元护理模型？

患者-医生-AI智能体三元组，AI作为「场上新队员」而非医生替代者。医生保留判断和控制权，AI扩展团队的覆盖范围——DeepMind将其描述为场上的新队友，而非替代品。

AI协同临床医生在评估中犯了多少严重错误？

系统在98个真实初级保健查询中的97个中记录了零严重错误，超越了医生目前在实践中使用的两个AI系统。

什么是NOHARM框架？

一种用于测试医学AI系统的方法论框架，分别测量因错误信息导致的错误（作为错误）和因遗漏关键信息导致的错误（遗漏错误）。DeepMind与学术医生合作将其适用于协同临床医生评估。

DeepMind AI协同临床医生：盲法评估98个初级保健查询，医生更偏好该系统，97/98例零严重错误

三元护理在实践中意味着什么？

作者如何测量回答质量？

查询质量和方法论如何？

为何这是一个转折点？

常见问题

来源

相关新闻