DeepMind AIコ・クリニシャン：97/98テストでゼロ重大エラー

Google DeepMindは2026年4月30日、AIコ・クリニシャン研究イニシアティブを発表しました——医師の臨床監督のもとでAIエージェントが患者を支援するトライアディックケアモデルです。98の現実的な一次診療クエリのブラインドの頭対頭評価において、医師は一貫してコ・クリニシャンの回答を2つの主要な証拠合成ツールより好評価し、システムは97/98ケースでゼロ重大エラーを記録しました。

Google DeepMindは2026年4月30日にAIコ・クリニシャン研究イニシアティブを正式発表しました。著者たちはこれを「トライアディックケア」——AIエージェントが患者の医師の臨床的権限のもとでケアの過程で患者を支援するパラダイム——として説明しています。アイデアは医師チームのリーチを拡大しつつ、医師が意思決定の判断と制御を維持することを保証することです。このイニシアティブは、MedPaLM（医学知識テスト）とAMIE（実現可能性研究における患者との模擬医療相談）に関するDeepMindの以前の研究を基盤としています。

トライアディックケアは実践で何を意味するか？

トライアディックケアは患者-医師-AIエージェントのトライアドで、AIが「フィールドの新しいチームメンバー」として、医師の代替としてではなく入ってきます。医学は常にチームスポーツであると著者たちのAlan Karthikesalingam、Vivek Natarajan、Pushmeet Kohliは論じます——AIエージェントはクリニシャンが医療上の責任を保持しながらも、チームにより多くのメンバーを持ち込むことができます。システムは医師向け（clinician-facing）と患者とのコミュニケーション向け（patient-facing）の2つの独立した方向でテストおよび設計されました。

著者たちはどのように回答の品質を測定したか？

DeepMindは学術医師とともにNOHARMフレームワークを適応させました。これは「commission error」（誤った情報）と「omission error」（重要な情報の省略）を個別に測定するアプローチです。ブラインドの頭対頭評価において、医師は一貫してAIコ・クリニシャンの回答を主要な証拠合成ツールよりも好評価しました。98の現実的な一次診療クエリの客観的な分析では、システムは97ケースでゼロ重大エラーを記録し、医師が広く実践で使用している2つのAIシステムを上回る改善となりました。

クエリの品質と方法論は？

研究はパネル医師によって後から精錬された多様なソースから収集された98の現実的な一次診療クエリを使用したブラインド比較を使いました。多段階の反復プロセスには背景調査と各クエリに固有のメトリクスの開発が含まれ、コンセンサスのomissionとcommissionエラーの精密な測定を可能にしました。目標は評価が単純化されたケースでシステムをテストするのではなく、実際の臨床上の意思決定の複雑さを反映することでした。

なぜこれが転換点なのか？

これまでの医療AIの結果のほとんどは試験問題や模擬相談のモードでした。コ・クリニシャンは初めて、医師が権限を保持し、AIエージェントがその傍らで機能するクリニックのコンポーネントとして位置づけられています——DeepMindはこれを臨床採用の前提条件と考えています。世界保健機関が2030年までに1000万人以上と推定している世界的な医療従事者不足は、この種のスケーリングを経済的に必要なものとし、評価結果はAIがもはや医学知識テストを補完するだけのアシスタントではないことを示唆しています。

よくある質問

トライアディックケアモデルとは何ですか？

AIエージェントが患者のケアの過程を医師の臨床的権限のもとで支援するアプローチです。医師は判断と制御を維持し、AIはチームのリーチを拡大します——DeepMindはこれを代替ではなく「フィールドの新しいチームメンバー」として説明しています。

評価でAIコ・クリニシャンは何件の重大エラーを犯しましたか？

システムは98の現実的な一次診療クエリのうち97件でゼロ重大エラーを記録し、医師が現在実践で広く使用している2つのAIシステムを上回りました。

NOHARMフレームワークとは何ですか？

誤った情報による誤り（commission）と重要な情報の省略による誤り（omission）を個別に測定する医療AIシステムテストの方法論的フレームワークです。DeepMindは学術医師とともにコ・クリニシャン評価にこれを適応させました。

DeepMind AIコ・クリニシャン：98件の一次診療クエリのブラインド評価で医師がツールより好評価、97/98例でゼロ重大エラー

トライアディックケアは実践で何を意味するか？

著者たちはどのように回答の品質を測定したか？

クエリの品質と方法論は？

なぜこれが転換点なのか？

よくある質問

出典

関連ニュース