AI コ・クリニシャンによる医療の新たなモデルの実現
Google DeepMind は、医師の監督下で患者と直接対話する「AI コ・クリニシャン」モデルを提案し、医療従事者不足という世界的課題に対する新たな解決策として三元的ケア(Triadic Care)の実現を目指している。
キーポイント
AI コ・クリニシャンの概念定義
医師の臨床的権限の下、患者のケア Journey を支援する AI エージェントを「チームの一員」として位置づけ、医療従事者の専門性を増幅させる新しいモデルを提唱。
三元的ケア(Triadic Care)への転換
従来の医師と患者の二項関係から、AI が加わった「医師 - 患者 - AI」の三項関係へ医療提供モデルを進化させ、医師の判断と制御を維持しつつ到達範囲を拡張する。
研究開発の歴史的経緯
医学知識テスト(MedPaLM)やシミュレーション診療(AMIE)での成果を経て、実世界の実行可能性試験を含む、臨床医と患者双方の視点から評価された AI コ・クリニシャンの研究を開始。
医療現場の課題解決へのアプローチ
WHO が予測する 2030 年までの 1,000 万人以上の医療従事者不足という深刻な課題に対し、AI を活用してケアの質、コスト、可用性、体験を同時に改善することを目指す。
影響分析・編集コメントを表示
影響分析
この記事は、医療 AI の役割が「診断支援ツール」から「臨床チームの構成員」というパラダイムシフトを示唆しており、今後の医療現場における人間と AI の協働関係の再定義に大きな影響を与える可能性があります。特に、AI が患者と直接対話する際の権限範囲や責任所在を明確にした「三元的ケア」モデルは、規制当局や医療機関にとって実装に向けた重要な指針となり得ます。
編集コメント
医療 AI の進化において、技術的な性能向上だけでなく「誰が最終判断を下すか」というガバナンス構造の明確化が進んでいる点が注目されます。これは実社会導入に向けた重要な一歩と言えるでしょう。
2026 年 4 月 30 日 Science
アラン・カルティケサリンガム、ヴィヴェク・ナタラジャン、プッシュミート・コリ
世界中の医療システムは、より良い治療成果、低コスト化、そして患者と臨床医双方にとっての改善された体験を追求しています。しかし、その進展は世界的な臨床専門家の不足によって制約されており、世界保健機関(WHO)は 2030 年までに 1,000 万人を超える医療従事者の不足が生じると予測しています。
AI はこの格差を埋める鍵としてしばしば見なされていますが、まだ臨床医や患者のニーズを完全に満たすには至っていません。そのため、本日、私たちは AI が医師の専門性をより効果的に増幅し、患者により高品質なケアを提供する方法を探るための「AI コ・クリニシャン(共働医療者)」研究イニシアチブを発表します。
Google DeepMind における医療 AI の取り組みは、医学知識に関する試験形式の問題を MedPaLM で習得することから始まり、テキストベースのシミュレーションされた医療相談において医師のパフォーマンスに匹敵する AMIE の開発へと進化しました。これには、実世界での実現可能性 試験設定も含まれます。また、臨床医と AI システムがどのように 連携して 働くかについて研究してきた長い歴史も持っています。
私たちは、医療提供の次の進化は、「三極ケア」を伴うものになると仮説を立てています。ここでは AI エージェントが医師の臨床的権限の下で患者のケア・ジャーニーを支援します。医学は常にチームスポーツであり、AI エージェントはより多くのチームメイトをフィールドに持ち込むことができます:これは医療従事者の到達範囲を広げつつ、彼らが判断と制御を維持することを保証するものです。
これが私たちの AI コー・クリニシャン研究イニシアチブの基盤です。これは、専門的な臨床監督の下で患者と相互作用するケアチームの協力的なメンバーとして機能するように設計された AI です。私たちは、医療従事者向けおよび患者向けの両方の設定において AI コー・クリニシャンを設計し評価しました。AI がケア提供の質、コスト、可用性、そして体験を向上させるためには、この両方の視点を扱うことが鍵となります。
医療 AI に関する研究の進展により、それらがより信頼性が高く、患者支援における医療従事者にとってより有益なものとなることを目指しています。
AI コー・クリニシャンによる医療従事者の拡張
医師にとって、ツールが有用なのは、それが信頼でき、事実に基づいている場合のみです。したがって、私たちは高品質なエビデンスを提示することによって、AI コー・クリニシャンが医療従事者をどの程度支援できるかを研究しました。
学術的な医師との協力により、「NOHARM」フレームワーク(https://arxiv.org/abs/2512.01241)を適応させ、私たちの AI を「作為的エラー」(誤った情報)および「不作為的エラー」(重要な情報の提示失敗)に対してテストしました。
盲検による直接比較評価において、医師たちは一貫して、主要なエビデンス合成ツールに対する AI コクリニシャンの回答を好んでいました。98 の現実的な一次医療クエリを対象とした客観的分析では、当システムは 97 のケースで致命的エラーを記録せず、医師が広く利用している 2 つの AI システムよりも改善を示しました。
本研究では、多様なソースから収集され、その後、担当医によるパネルによって精査された 98 の現実的な一次医療クエリを用いた盲検比較を行いました。この多段階反復プロセスには、包括的な背景調査と、臨床的精度およびベストプラクティスガイダンスへの準拠を厳格に評価するために、各クエリ固有の回答指標を開発することが含まれていました。この専門家主導の精査フェーズを活用することで、本手法は、省略および過剰行為に関するコンセンサスシナリオ固有のエラーを精密に特徴付けることを可能にし、評価が現実世界の臨床意思決定の複雑さを反映することを保証しました。
臨床エビデンスの信頼できる合成を超えて、AI システムは医師が求める精度で薬剤や治療介入に関する問い合わせに応えるべきです。これは AI にとって困難な課題であり、まだ十分に探求されていません。このギャップを埋めるため、私たちは複雑な薬物知識と推論能力を評価するために設計された難易度の高いベンチマークである OpenFDA の RxQA セット における質問に対して AI コクリニシャン(AI 共働医療従事者)を評価しました。これらのテストでの対応において著しい進歩が見られ、特に実際の診療で用いられるようなオープンエンドな形式で質問が投げかけられた場合、他の最先端 AI システムを上回る結果となりました。この知見は、データ集約型のケア計画と管理の要件が増大する中で臨床医がその道筋を進む際に、高度な AI が有益な支援を提供する可能性を強調しています。
RxQA は当初、プライマリケア医でも僅かなスコアしか出せない多肢選択式(MCQ)テストとして提示されていました。しかし、私たちの結果は、公開されている RxQA のセット(OpenFDA)において AI システムの MCQ パフォーマンスが大幅に改善されたことを示していますが、臨床現場における医師のニーズは、事前に定められた選択肢から正解を特定する必要性ではなく、オープンエンドな質問に対する対応として現れます。薬剤に関するオープンエンドな質問応答というより現実的な臨床タスクにおいては、AI コクリニシャンは利用可能な最先端モデルを上回っています。これらを総合すると、これらの結果は AI が臨床推論のそのような側面において人間の医師の熟練度を模倣できる可能性を示しており、さらなる改善の余地があることを示しています。
テレ医療環境における AI コ・クリニシャンのリアルタイム多モーダル機能の研究
患者向け研究コンテキスト内での AI コ・クリニシャンのパフォーマンスを調査している点も、臨床医向けの支援設定を超えた重要な領域です。従来の専門的な臨床評価には、歩行観察や呼吸パターンの微妙なニュアンス、皮膚の変化の外観など、視覚的および聴覚的な微細な手がかりが含まれます。これまでの研究(当社の Beth Israel Deaconess Medical Center との共同作業を含む)は、医師との面談前の AI によるテキストチャットの価値を示しましたが、対話をテキストに限定することは本質的に AI の臨床的価値を制限することになります。医療はテキストだけではありません。目と耳、そして声が必要です。
このため、私たちはリアルタイムの多モーダル AI をケアチームの支援要素としての可能性を探求しています。Gemini や Project Astra の機能を基盤に、AI コクリニシャン(共臨床医)がライブ音声と映像を活用して患者と対話し、有能な AI が将来的には専門家の監督下でより良い診断や管理を支援できるような遠隔医療通話をシミュレーションする能力を検証しました。手法および結果に関する詳細は、技術報告書「Towards Conversational Medical AI with Eyes, Ears and a Voice」でご覧いただけます。
ハーバード大学とスタンフォード大学の学術医師と連携し、20 の合成臨床シナリオと 10 名の医師「患者役俳優」を対象とした無作為化シミュレーション研究を設計しました。このエージェントはテキストのみのシステムを超えた新たな能力を示し、例えば複雑な身体診察をリアルタイムで患者に案内する機能などが含まれます。具体的には、吸入器の使用法を正しく修正したり、肩関節の動作誘導を通じて腱板損傷(rotator cuff injury)を特定したりすることに成功しました。
AI が人間の臨床パフォーマンスに匹敵し、あるいは凌駕する可能性については頻繁に議論されていますが、これらの高忠実度シミュレーションはその前提をより厳密に評価するものです。私たちは相談スキルの 140 以上の側面を評価しましたが、その結果、専門医は AI システム全体としてより優れたパフォーマンスを示し、特に「レッドフラグ(危険信号)」の特定や重要な身体診察の誘導において顕著でした。この知見は、これらのシステムが現時点では臨床判断を代替するものではなく、医療従事者を支援するためのツールとして使用するのが最適であることを示唆しています。同時に、私たちの研究は AI の能力における大きな進歩も浮き彫りにしました:AI コクリニシャン(共働医師)は、評価された 140 の領域のうち 68 で、プライマリ・ケア医(PCP)と同等かそれ以上のレベルで機能しました。これらの結果は広範な可能性を強調すると同時に、さらなる研究が医療 AI を最も効果的に進展させることができる特定の分野を示しています。
120 の仮想的な遠隔医療診察を、実際の一次医療従事者、AI コ・クリニシャン、または GPT-realtime が行ったランダム化、インターフェースブラインド、クロスオーバーシミュレーション研究からの結果です。評価には、内科レジデントのプールが患者役として参加し、20 の標準化された外来シナリオを演じました。これらのシナリオは臨床状態の範囲にまたがり、能動的な聴覚および視覚的推論を必要とするように特別に設計されています。シナリオ固有の基準により、診察品質の 7 つのドメインが評価され、各項目は省略、部分的完了、完全に適切なパフォーマンスを区別するために、アンカー付きの 0–2 スコアリングを使用しています。エラーバーは 95% 信頼区間に対応します。
以下では、この遠隔医療設定において研究チームが仮想的な患者としてロールプレイを行い、AI コ・クリニシャンとのやり取りを通じて、システムの潜在的な能力と限界を強調しています。
クリニカルグレードの AI に対する信頼構築のためのセーフガード
臨床環境への AI の移行および展開には、妥協なきアーキテクチャ的および運用上のセーフガードが必要です。患者向けの遠隔医療会話をシミュレーションした当社の研究において、AI コ・クリニシャンはデュアルエージェントアーキテクチャを採用しています。「プランナー」モジュールが会話の継続的な監視を行い、「トークヤー」エージェントが安全な臨床境界内にとどまっていることを検証します。
同様に、医師のニーズに応えるために AI コ・クリニシャンは臨床グレードのエビデンスを優先し、検索時の検証と引用チェックを実行します。上記で報告した評価は、医師によって構築されたものであり、現実世界におけるエビデンスの多様なニーズを反映し、厳密に AI の能力を評価するために仮想的なシナリオから質問を策定しています。
AI コ・クリニシャンの厳格な実世界評価のための研究協力
AI コ・クリニシャンをさらに開発・評価するため、現在、米国、インド、オーストラリア、ニュージーランド、シンガポール、UAE など、世界的に多様な医療環境にある学術機関および研究パートナーと連携し、段階的なアプローチを進めています。
これらの評価フェーズを通じて、ミッションに合致した医療組織や学術医療センターなど、より多くの地理的領域において研究を深化させていきます。私たちの目標は、適用される基準に沿って医療 AI が責任を持って開発・導入され、世界中の健康改善を支えることを確実にすることです。
*注記:本研究協力はいまだ診断、治療、緩和、治療、または疾病予防のための使用や、医療アドバイスを提供することを意図したものではありません。*
謝辞
ハーバード大学医学部およびスタンフォード大学の研究パートナー、ならびに当チームと共同して信頼性の高いテスター評価をさらに進めている多くの医療機関やケア組織に対し、心より感謝申し上げます。本プロジェクトには、Google DeepMind、Google Research、Google Cloud、Google for Health の各部門の多数のチームが協力しており、洞察に富んだ議論と貢献をしてくださったチームメイトの皆様に厚く御礼申し上げます。
特に、AI コクリニシャン(共働医師)の実現には、Aniruddh Raghu、Arthur Chen、Charlie Taylor、CJ Park、David Stutz、Devora Berlowitz、Doug Fritz、Dylan Slack、Eliseo Papa、Jack Chen、JD Velasquez、Jing Rong Lim、Katya Tregubova、Kelvin Guu、Meet Shah、Richard Green、Ryutaro Tanno、Sukhdeep Singh、Victoria Johnston、Adam Rodman の各氏による中核的な研究およびエンジニアリングの取り組みが不可欠でした。
私たちの多くの協力者、Ali Eslami, Aliya Rysbeck, Andy Song, Anil Palepu, Anna Cupani, Bakul Patel, Bibo Xu, Brett Hatfield, David Wu, Ed Chi, Emma Cooney, Erica Oppenheimer, Erwan Rolland, Euan A. Ashley, Francesca Pietra, Rebeca Santamaria-Fernadez, Gordon Turner, Gregory Wayne, Hannah Gladman, Irene Teinemaa, Jack O'Sullivan, Jacob Koshy, Jan Freyberg, Jason Gusdorf, Joelle Wilson, Katherine Tong, Juraj Gottweis, Michael Howell, Mili Sanwalka, Pavel Dubov, Pete Clardy, Peter Brodeur, Rachelle Sico, SiWai Man, Sumanth Dahathri, Taylan Cemgil, Tim Strother, Uchechi Okereke, Valentin Lievin, Vishnu Ravi, Yana Lunts, Yun Liu, Simon Staffell, Rachel Teo, Adriana Fernandez Lara, Armin Senoner, Danielle Breen, Paula Tesch, Leen Verburgh, Dimple Vijaykumar, Juanita Bawagan, Muinat Abdul, Mariana Montes, Rob Ashley からの貴重な貢献に感謝いたします。特徴的な動画は、Christopher Godfree, Matt Mager, Emma Moxhay, Simon Waldron によって制作されました。
研究プロセス全体を通じて、洞察に満ちた指導と支援を提供してくれた James Manyika と Demis Hassabis に感謝いたします。
原文を表示
April 30, 2026 Science
Alan Karthikesalingam, Vivek Natarajan and Pushmeet Kohli
Health systems worldwide are striving for better outcomes, lower costs, and an improved experience for both patients and clinicians. However, progress is constrained by a global shortage of clinical experts, with the World Health Organization predicting a shortfall of more than 10 million health workers by 2030.
While AI is often seen as the key to bridging this gap, it has not yet been able to fully meet the needs of clinicians and patients. That's why, today, we are announcing our AI co-clinician research initiative, to explore how AI could better amplify doctors’ expertise and deliver higher quality care to patients.
At Google DeepMind, our journey in medical AI has evolved from mastering examination-style tests of medical knowledge with MedPaLM, to matching physician performance in text-based simulated medical consultations with AMIE, including in real-world feasibility trial settings. We also have a long history of studying how clinicians and AI systems might work together.
We hypothesize that the next evolution of healthcare delivery will entail “triadic care” where AI agents can help patients in their care journeys under the clinical authority of their physician. Medicine has always been a team sport, and AI agents can bring more teammates onto the field: extending clinicians' reach while ensuring they retain judgment and control.
This serves as the foundation of our AI co-clinician research initiative: AI designed to function as a collaborative member of the care team that interacts with patients under expert clinical supervision. We designed and evaluated AI co-clinician in both clinician and patient-facing settings. Addressing both perspectives is key for AI to enhance the quality, cost, availability and experience of care delivery.
Augmenting clinicians with AI co-clinician
For a physician, a tool is useful only if it is trustworthy and factually grounded. We therefore researched how well AI co-clinician might support clinicians by surfacing high-quality evidence.
In collaboration with academic physicians, we adapted the "NOHARM" framework to test our AI for "errors of commission" (incorrect information) and "errors of omission" (failure to surface critical information).
In head-to-head blind evaluations, physicians consistently preferred AI co-clinician’s responses to leading evidence synthesis tools. In objective analysis of 98 realistic primary care queries, our system recorded zero critical errors in 97 cases, improving over two AI systems widely used by physicians.
Beyond reliable synthesis of clinical evidence, AI systems should answer queries about medications and therapeutic interventions with the precision that doctors demand. This is a difficult task for AI yet remains underexplored. To address this gap, we evaluated AI co-clinician on the OpenFDA set of RxQA questions, a challenging benchmark designed to assess complex medication knowledge and reasoning. We saw significant progress in navigating these tests, surpassing other frontier AI systems especially when questions were posed in the open-ended way they’re asked in real care. The findings underscore the potential for advanced AI to provide helpful assistance as clinicians navigate the increasingly data-intensive requirements of care planning and management.
Researching AI co-clinician’s real time multimodal capabilities in telemedical settings
Beyond assistive clinician-facing settings, we are also investigating how AI co-clinician performs within patient-facing research contexts. Expert clinical assessment traditionally includes subtle visual and auditory cues, such as observing a patient’s gait, the nuances of respiratory patterns, or the appearance of skin changes. While prior studies (including our work with Beth Israel Deaconess Medical Center) demonstrated value in AI text-chats before a doctor’s appointment, restricting interactions to text fundamentally constrains the clinical value of AI. Medicine isn’t just text; it requires eyes, ears and a voice.
This is why we are exploring the potential for real-time multimodal AI as an assistive component of the care team. Building on the capabilities of Gemini and Project Astra, we tested the capabilities of AI co-clinician to use live audio and video to engage with patients, simulating telemedical calls where capable AI could one day support better diagnosis and management under expert supervision. Further details regarding our methodology and results are available in our technical report: “Towards Conversational Medical AI with Eyes, Ears and a Voice”
Working with academic physicians at Harvard and Stanford, we designed a randomized simulation study with 20 synthetic clinical scenarios and 10 physician "patient-actors". The agent demonstrated new capabilities beyond text-only systems, such as guiding patients through complex physical examinations in real time. For example, it successfully corrected a patient's inhaler technique and guided shoulder maneuvers to identify a rotator cuff injury.
While there is frequent discussion regarding AI’s potential to match or exceed human clinical performance, these high-fidelity simulations more rigorously evaluate that premise. We assessed over 140 aspects of consultation skill and found that expert physicians performed better than the AI system overall, particularly in identifying "red flags" and guiding critical physical examinations. This finding suggests these systems are currently best used as supportive tools for practitioners rather than replacements for clinical judgment. At the same time, our work highlights the significant progress in AI’s capabilities: AI co-clinician performed at a level comparable to or exceeding primary care physicians (PCPs) in 68 of the 140 assessed areas. The results underscore extensive promise and flag specific areas where further research can most impactfully advance medical AI.
Below you can see the research team role-playing as hypothetical patients in this telemedical setting with the AI co-clinician, highlighting the system’s potential capabilities and limitations.
Engineering trust with safeguards for clinical-grade AI
The transition and deployment of AI into clinical environments requires uncompromising architectural and operational safeguards. In our research on simulations of patient-facing telemedical conversations, AI co-clinician uses a dual-agent architecture: a "Planner" module continuously monitors the conversation, verifying that the "Talker" agent stays within safe clinical boundaries.
Similarly, to meet doctors’ needs AI co-clinician prioritizes clinical-grade evidence, performing verification and citation checking for retrieval. The evaluations we report above were constructed by physicians to mirror a range of their real-world evidence needs, formulating questions from hypothetical scenarios for rigorously evaluating AI’s capabilities.
Research collaborations for rigorous real-world evaluation of AI co-clinician
To further develop and assess AI co-clinician, we are currently advancing a phased approach with academic and research collaborators across globally diverse healthcare settings including in the US, India, Australia, New Zealand, Singapore and UAE.
As we progress through these evaluation phases, we will further our research in more geos including mission-aligned healthcare organizations and academic medical centers. Our goal is to ensure that medical AI is developed and deployed responsibly in line with applicable standards, supporting better health worldwide.
*Note: Our research collaborations are not, at this stage, intended for use in the diagnosis, cure, mitigation, treatment, or prevention of disease, or to provide medical advice.*
Acknowledgements
We are grateful to our research partners at Harvard Medical School and Stanford Medicine and the many medical centers and care organizations engaging in further trusted tester evaluations with our team. This project involved collaborations with many teams at Google DeepMind, Google Research, Google Cloud and Google for Health and we thank our team mates for insightful discussions and contributions.
In particular, AI co-clinician would not have been possible without the core research and engineering efforts of Aniruddh Raghu, Arthur Chen, Charlie Taylor, CJ Park, David Stutz, Devora Berlowitz, Doug Fritz, Dylan Slack, Eliseo Papa, Jack Chen, JD Velasquez, Jing Rong Lim, Katya Tregubova, Kelvin Guu, Meet Shah, Richard Green, Ryutaro Tanno, Sukhdeep Singh, Victoria Johnston, Adam Rodman.
We thank our many collaborators for their invaluable contributions, including Ali Eslami, Aliya Rysbeck, Andy Song, Anil Palepu, Anna Cupani, Bakul Patel, Bibo Xu, Brett Hatfield, David Wu, Ed Chi, Emma Cooney, Erica Oppenheimer, Erwan Rolland, Euan A. Ashley, Francesca Pietra, Rebeca Santamaria-Fernadez, Gordon Turner, Gregory Wayne, Hannah Gladman, Irene Teinemaa, Jack O'Sullivan, Jacob Koshy, Jan Freyberg, Jason Gusdorf, Joelle Wilson, Katherine Tong, Juraj Gottweis, Michael Howell, Mili Sanwalka, Pavel Dubov, Pete Clardy, Peter Brodeur, Rachelle Sico, SiWai Man, Sumanth Dahathri, Taylan Cemgil, Tim Strother, Uchechi Okereke, Valentin Lievin, Vishnu Ravi, Yana Lunts, Yun Liu, Simon Staffell, Rachel Teo, Adriana Fernandez Lara, Armin Senoner, Danielle Breen, Paula Tesch, Leen Verburgh, Dimple Vijaykumar, Juanita Bawagan, Muinat Abdul, Mariana Montes and Rob Ashley. Feature videos were produced by Christopher Godfree, Matt Mager, Emma Moxhay and Simon Waldron.
Thanks to James Manyika and Demis Hassabis for their insightful guidance and support throughout the research process.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み