ハーバード大学研究:AI が救急外来診断において医師二人より高精度を示す
ハーバード大学の研究により、大規模言語モデル(o1)が初期診断において2人の医師と同等かそれ以上の精度を示し、AI の医療現場への実用可能性を浮き彫りにした。
キーポイント
AI と医師の診断精度比較実験
ハーバード大学医学部などのチームが、ベス・イスラエル救急外来の76症例を対象に、OpenAI の o1 および 4o モデルと2人の内科専門医の診断を盲検評価した。
初期トリアージにおける AI の優位性
情報が少なく緊急性が高い初期トリアージ段階において、o1 モデルは 67% のケースで正確な診断を提供し、医師(55% と 50%)を上回った。
事前処理なしのリアルタイム評価
研究チームは電子カルテ情報を一切加工せず、診断時の状態のまま AI に提示した結果、o1 モデルが既存モデルや医師ベースラインを凌駕する性能を示した。
臨床応用への慎重な姿勢
AI が即座に生死に関わる決定を下せるという主張ではなく、実世界での評価に向けた前向きな試験(prospective trials)の必要性を強調している。
研究の限界と責任体制の欠如
今回の研究はテキスト情報のみに限定されており、非テキスト入力への推論能力には限界がある。また、AI診断に対する公式な責任所在(アカウンタビリティ)の枠組みが現状では存在しない。
専門性との比較対象に関する批判
一部の医師は、この研究で AI が内部医療医と比較された点が問題視されており、緊急治療室(ER)医や他の専門医との比較が適切ではないと指摘している。
ER 診療の本来の目的
ER 医師にとっての主要な目標は最終診断を当てることではなく、患者の命に関わる緊急性のある状態を見極めることにあり、AI の評価基準もこの視点から再考されるべきである。
影響分析・編集コメントを表示
影響分析
この研究は、医療現場における AI の診断精度が人間の専門医に匹敵しうることを示す強力な実証データとなり、特に緊急性の高い初期段階での活用可能性を裏付けました。しかし、AI が即座に臨床現場で完全自律的な意思決定を行う段階ではないと指摘しており、今後の大規模な前向き試験(prospective trials)が不可欠であることを示唆しています。
編集コメント
AI が医師の診断能力を凌駕する可能性を示す画期的な研究結果ですが、現時点では「補助ツール」としての評価段階であり、臨床現場での完全導入にはさらなる検証が必要です。
新しい研究では、大規模言語モデルが実際の救急室の症例を含むさまざまな医療文脈においてどのように機能するかを調査しており、少なくとも一つのモデルは人間の医師よりも正確な診断を提供しているようである。
この研究は先週『Science』誌に掲載されたもので、ハーバード大学医学部とベス・イスラエル・ディアコネス医療センターの医師およびコンピュータ科学者によって率いられた研究チームによるものである。研究者たちは、OpenAI のモデルが人間の医師と比較してどのように機能するかを測定するためにさまざまな実験を実施したと述べている。
ある実験では、研究者らはベス・イスラエルの救急室に来院した 76 人の患者に焦点を当て、2 人の内科専門医(アテンディング・フィジシャン)が提示した診断と、OpenAI の o1 および 4o モデルによって生成された診断を比較した。これらの診断は、人間由来か AI 由来かを知らない別の 2 人のアテンディング・フィジシャンによって評価された。
「各診断の接点において、o1 は少なくとも 2 人のアテンディング・フィジションおよび 4o モデルと同等か、それよりもわずかに優れたパフォーマンスを示した」と研究は述べており、「特に最初の診断の接点(初期救急トリアージ)では、患者に関する情報が最も少なく、正しい判断を下すための緊急性が最も高いため、その差は顕著であった」と付け加えている。
ハーバード大学医学部のプレスリリースにおいて、研究者たちは「データを全く前処理していない」と強調しました。AI モデルには、各診断時に電子カルテに存在していた情報と同じものが提示されました。
その情報を用いて、o1 モデルはトリアージ症例の 67% で「正確または非常に近い診断」を提供することに成功しました。これに対し、一方の医師は 55% のケースで正確または近い診断を、もう一方の医師は 50% のケースで達成していました。
「AI モデルをほぼすべてのベンチマークに対してテストしましたが、その性能は先行モデルや我々の医師ベースラインを凌駕しました」と、ハーバード大学医学部で AI ラボを統括し、本研究の主要著者の一人であるアルジュン・マンライ氏はプレスリリースの中で述べています。
Techcrunch event
サンフランシスコ、カリフォルニア州
|
2026 年 10 月 13-15 日
明確に述べておくと、本研究は AI が緊急治療室で実際の生死を分ける決定を下す準備ができていると主張したわけではありません。むしろ、この知見は「これらの技術を現実の患者ケア現場で評価するための前向きな試験に対する緊急性の高い必要性」を示しているのだと指摘しています。
研究者たちはまた、テキストベースの情報仅提供された場合におけるモデルのパフォーマンスのみを研究対象としたこと、「既存の研究では、現在のファウンデーションモデルは非テキスト入力に関する推論においてより制限されていることが示唆されている」とも述べています。
ハーバード大学の研究の主要著者の一人であり、ベス・イスラエル病院の医師であるアダム・ロッドマンは、ガーディアン紙に対して、「現時点では AI 診断に関する責任の所在を明確にする正式な枠組みが存在しない」と警告し、患者たちは依然として「生死に関わる決断や困難な治療方針の決定において、人間に導いてほしいと考えている」と述べました。
緊急医療医であるクリステン・パンタガニは、研究に関する投稿で、「これは非常に過大評価された見出しを招いた興味深い AI 研究だが、特に AI の診断結果が救急科医ではなく内科医の診断と比較されている点において」と指摘しました。
「AI ツールと医師の臨床能力を比較するのであれば、まず実際にその専門分野で診療を行っている医師と比較すべきです」とパンタガニは述べています。「大規模言語モデル(LLM)が神経外科の認定試験で皮膚科医に勝つ可能性があっても、それは特に有益な知見とは言えません。」
また彼女は、「救急科医として初めて患者を診る際、私の主な目標は*最終的な診断名を推測することではありません。*私の主な目標は、患者が命に関わる状態を抱えているかどうかを判断することです」と主張しました。
*この投稿と見出しは、研究における診断が内科の常勤医師によって行われた事実を反映し、クリステン・パンタガニによるコメントを追加した内容に更新されました。*
*当社の記事内のリンクを通じてご購入いただいた場合、私たちは少額のコミッションを獲得する可能性があります。これは当社の編集の独立性には影響しません。
Anthony Ha は TechCrunch の週末編集者です。以前は Adweek でテクノロジー記者、VentureBeat でシニアエディター、Hollister Free Lance で地方政府担当記者、そしてベンチャーキャピタル企業でコンテンツ担当副社長を務めました。現在はニューヨーク市に住んでいます。
Anthony への連絡や、彼からのアウトリーチの検証については、anthony.ha@techcrunch.com までメールを送ってください。
原文を表示
A new study examines how large language models perform in a variety of medical contexts, including real emergency room cases — where at least one model seemed to be more accurate than human doctors.
The study was published this week in Science and comes from a research team led by physicians and computer scientists at Harvard Medical School and Beth Israel Deaconess Medical Center. The researchers said they conducted a variety of experiments to measure how OpenAI’s models compared to human physicians.
In one experiment, researchers focused on 76 patients who came into the Beth Israel emergency room, comparing the diagnoses offered by two internal medicine attending physicians to those generated by OpenAI’s o1 and 4o models. These diagnoses were assessed by two other attending physicians, who did not know which ones came from humans and which came from AI.
“At each diagnostic touchpoint, o1 either performed nominally better than or on par with the two attending physicians and 4o,” the study said, adding that the differences “were especially pronounced at the first diagnostic touchpoint (initial ER triage), where there is the least information available about the patient and the most urgency to make the correct decision.”
In Harvard Medical School’s press release about the study, the researchers emphasized that they did not “pre-process the data at all” — the AI models were presented with the same information that was available in the electronic medical records at the time of each diagnosis.
With that information, the o1 model managed to offer “the exact or very close diagnosis” in 67% of triage cases, compared to one physician who had the exact or close diagnosis 55% of the time, and to the other who hit the mark 50% of the time.
“We tested the AI model against virtually every benchmark, and it eclipsed both prior models and our physician baselines,” said Arjun Manrai, who heads an AI lab at Harvard Medical School and is one of the study’s lead authors, in the press release.
Techcrunch event
San Francisco, CA
|
October 13-15, 2026
To be clear, the study didn’t claim that AI is ready to make real life-or-death decisions in the emergency room. Instead, it said the findings show an “urgent need for prospective trials to evaluate these technologies in real-world patient care settings.”
The researchers also noted that they only studied how models performed when provided with text-based information, and that “existing studies suggest that current foundation models are more limited in reasoning over nontext inputs.”
Adam Rodman, a Beth Israel doctor who’s also one of the study’s lead authors, warned the Guardian that there’s “no formal framework right now for accountability” around AI diagnoses, and that patients still “want humans to guide them through life or death decisions [and] to guide them through challenging treatment decisions.”
In a post about the study, Kristen Panthagani, an emergency physician, said this is an “an interesting AI study that has led to some very overhyped headlines,” especially since it was comparing AI diagnoses to those from internal medicine physicians, not ER physicians.
“If we’re going to compare AI tools to physicians’ clinical ability, we should start by comparing to physicians who actually practice that specialty,” Panthagani said. “I would not be surprised if a LLM could beat a dermatologist at an neurosurgery board exam, [but] that’s not a particularly helpful thing to know.”
She also argued, “As an ER doctor seeing a patient for a first time, my primary goal is *not* to guess your ultimate diagnosis. My primary goal is to determine if you have a condition that could kill you.”
*This post and headline have been updated to reflect the fact that the diagnoses in the study came from internal medicine attending physicians, and to include commentary from Kristen Panthagani.*
*When you purchase through links in our articles, we may earn a small commission. This doesn’t affect our editorial independence.*
Anthony Ha is TechCrunch’s weekend editor. Previously, he worked as a tech reporter at Adweek, a senior editor at VentureBeat, a local government reporter at the Hollister Free Lance, and vice president of content at a VC firm. He lives in New York City.
You can contact or verify outreach from Anthony by emailing anthony.ha@techcrunch.com.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み