病気で不適切:オンタリオ州監査官が医師の AI ノートテイクシステムが基本的な事実を頻繁に誤ることを発見
オンタリオ州の監査により、医療現場で承認された AI 筆記支援システムの半数以上が重大な事実誤認や虚偽情報の生成を行っており、評価基準の不備も浮き彫りとなった。
キーポイント
AI システムの重大な機能不全
20 社のシステムのうち 9 社が患者との会話にない治療計画を捏造し、12 社で誤った薬物情報が記載されるなど、医療安全に関わる深刻なエラーが発生している。
評価基準の構造的欠陥
システムの正確性が総合評価のわずか 4% に過ぎず、国内拠点の有無が 30% を占めるなど、安全性よりも商業的要因を重視した不適切な調達プロセスが指摘された。
メンタルヘルス情報の欠落
20 社のうち 17 社が患者の精神健康問題に関する重要な詳細を見落とし、6 社は完全に欠落させるなど、繊細な医療情報の処理能力に大きな課題がある。
検証プロセスと現状のリスク
医師による手動レビューが推奨されているものの、誤りを防ぐための必須承認機能(attestation feature)がどのシステムにも実装されていないことが報告された。
影響分析・編集コメントを表示
影響分析
このニュースは、医療 AI の実装における「精度」という最も基本的な要件が、実際の導入現場で軽視されていたことを示す警鐘です。単なる技術的な誤りを超え、監査プロセスや評価基準のガバナンス欠如が重大な医療リスクを生んでいる構造的問題を浮き彫りにしており、業界全体での AI 導入基準の見直しと、臨床現場における厳格な人間による検証体制の再構築を迫る内容です。
編集コメント
医療現場における AI の信頼性は、単なる効率化のツールではなく、患者の生命に関わる精度が求められるため、今回の監査結果は業界全体に大きな衝撃を与えるものです。技術の導入速度よりも、安全性を検証するガバナンス体制の整備が急務であることが浮き彫りになりました。
オンタリオ州の医療提供者向けに承認された AI システムは、重要な詳細を見落とし、誤った情報を挿入し、患者も臨床医も言及していない内容を捏造する傾向が、20 社の承認ベンダーのシステムを対象とした州監査によって明らかになりました。これらの発見は、カナダのオンタリオ州監査総長事務所によるもので、同州の公共サービスにおける AI 利用状況に関するより広範な報告書に含まれています。具体的には、医師、看護師、およびより広い医療セクター全体の他の医療専門家のためにオンタリオ保健省が開始した「AI Scribe」プログラムに焦点を当てています。
調達プロセスの一環として、当局は模擬的な医師 - 患者の録音を用いて評価を行いました。その後、医療専門家は元の録音と AI が生成したノートを見比べ、その正確性を評価しました。彼らが見つけたことは、危機的状況における AI の精度を懸念する人々にとって、正直に言って衝撃的なものでした。
報告書によると、20 件の AI システムのうち 9 件が「録音で議論されていない患者の治療計画に関する情報を捏造し、提案を行った」とされています。報告書によれば、評価者はサンプルレポートにおいて、致命的な誤った情報を見つけたとあります。例えば、腫瘍が見つからなかったり、患者が不安を抱えていたりするといった内容ですが、これらは録音では一切言及されていませんでした。
評価された 20 のシステムのうち 12 が患者ノートに誤った薬物情報を挿入し、17 が「録音で議論された患者のメンタルヘルス問題に関する重要な詳細を見落とした」とされています。報告書によると、6 つのシステムは「患者のメンタルヘルス問題を完全にまたは部分的に見落とし、あるいは重要な詳細を欠いていた」ことが示されています。
新しい技術の導入を医師に支援し、AI Scribe の調達プロセスに関与した団体である OntarioMD は、医師が AI ノートの正確性を手動で確認するよう推奨していますが、報告書では、承認されたどの AI Scribe システムにも必須の確認機能がないと指摘しています。
評価が悪いこともまた、問題です。AI システムが間違いを犯すことは決して驚くべきことではありません。私たちが以前報じたように、消費者向け AI はユーザーに誤った医療情報を提供する傾向があり、いくつかの研究では、大規模言語モデルがテストされた症例の約 80% で適切な鑑別診断を生み出せていないことが示されています。
しかし、ここで評価されたツールは消費者ではなく医師向けのものです。そのため、このような poor なパフォーマンスには説明が必要です。
報告書の大部分は、システムがどのように評価されたかに責任を転嫁しています。報告書によると、AI Scribe のパフォーマンスの各カテゴリに割り当てられた重みが不正確でした。プラットフォームの評価スコアの 30% がオンタリオ州内に国内拠点を持っているかどうかという点のみで決定される一方、医療ノートの正確性が総スコアに寄与したのはわずか 4% でした。
バイアス制御は総評価スコアの 2% に過ぎず、脅威・リスク・プライバシー評価もさらに 2% を占めるにすぎませんでした。また、SOC 2 Type 2 のコンプライアンスは追加で 4 ポイントしか貢献していません。
つまり、正確性、バイアス制御、および重要なセキュリティとプライバシー保護に関連する基準は、AI Scribe システムの総評価スコアのほんの一部を占めるに過ぎませんでした。
報告書は「不正確な重み付けにより、不正確または偏った医療記録を生成する可能性のあるベンダーや、機密性の高い個人情報を守るための十分な保護手段を欠くベンダーが選定される結果になる可能性がある」と述べています。
The Register はオンタリオ保健省にこの報告書に対する見解と、AI Scribe プログラムに関する同省の推奨事項に従う予定があるかどうかについて問い合わせましたが、すぐに回答は得られませんでした。省のスポークスマンは水曜日に CBC に対し、オンタリオ州では 5,000 人以上の医師が AI Scribe プログラムに参加しており、この技術に関連する患者への被害に関する既知の報告はないと述べています。
®
原文を表示
The AI systems approved for Ontario healthcare providers routinely missed critical details, inserted incorrect information, and hallucinated content that neither patients nor clinicians mentioned, according to a provincial audit of 20 approved vendors’ systems. The findings come from the Office of the Auditor General of Ontario, Canada, and are included in a larger report about the state of AI usage by public services in the province. They specifically address the AI Scribe program, the Ontario Ministry of Health initiated for physicians, nurse practitioners, and other healthcare professionals across the broader health sector. As part of the procurement process, officials conducted evaluations using simulated doctor-patient recordings. Medical professionals then reviewed the original recordings alongside the AI-generated notes to evaluate their accuracy. What they found was, frankly, shocking for anyone concerned about the accuracy of AI in critical situations. Nine out of 20 AI systems reportedly “fabricated information and made suggestions to patients' treatment plans” that weren’t discussed in the recordings. According to the report, evaluators spotted potentially devastating incorrect information in the sample reports, such as no masses being found, or patients being anxious, even though these things were never discussed in the recordings. Twelve of the 20 systems evaluated inserted incorrect drug information into patient notes, while 17 of the systems “missed key details about the patients’ mental health issues” that were discussed in the recordings. Six of the systems “missed the patients’ mental health issues fully or partially or were missing key details,” per the report. OntarioMD, a group that offers support for physicians in adopting new technologies and was involved in the AI Scribe procurement process, has recommended that doctors manually review their AI notes for accuracy, but the report notes there’s no mandatory attestation feature in any of the AI Scribe-approved systems. Bad evaluations don’t help, either AI systems making mistakes isn’t exactly shocking. As we’ve reported previously, consumer-focused AI has a tendency to provide bad medical information to users, and some studies have found large language models failed to produce appropriate differential diagnoses in roughly 80 percent of tested cases. But the tools evaluated here are for doctors, not consumers, and such poor performance necessitates explanation. A good portion of the report blames how the systems were evaluated. According to the report, the weight given to various categories of AI Scribe performances was wonky. While 30 percent of a platform’s evaluation score depended solely on whether they had a domestic presence in Ontario, the accuracy of medical notes contributed only 4 percent to the total score. Bias controls accounted for only 2 percent of the total evaluation score; threat, risk, and privacy assessments counted for another 2 percent; and SOC 2 Type 2 compliance contributed an additional 4 percentage points. In other words, criteria tied to accuracy, bias controls, and key security and privacy safeguards made up only a small portion of the total evaluation score for the AI Scribe systems. “Inaccurate weightings could result in the selection of vendors whose AI tools may produce inaccurate or biased medical records or lack adequate protection to safeguard sensitive personal health information,” the report said of the scoring regime. The Register reached out to the Ontario Health Ministry for its take on the report, and whether it was going to conform to its recommendations for the AI Scribe program, but we didn’t immediately hear back. A spokesperson for the Ministry told the CBC on Wednesday that more than 5,000 physicians in Ontario are participating in the AI Scribe program and there have been no known reports of patient harms associated with the technology. ®
関連記事
米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず
米国政府は国家安全保障上の懸念から、アマゾンの研究者らがガードレール回避手法を発見したとして、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の販売差し止めを命じた。サイバーセキュリティ研究者らはこの措置が危険だとする公開書簡に署名し、同社も他モデルでも同様の抜け道が存在すると指摘している。
OpenAI が企業向け利用分析機能を導入(3 分読了)
OpenAI は、企業が自社の AI サービス利用状況を詳細に把握・管理できるよう、新たな企業向け利用分析機能を発表した。
[AINews] 今日特に大きな出来事はありませんでした
Latent Space は、GLM 5.2 が依然として注目されていると指摘しつつ、AIE WF 2026 の通常チケットが月曜日に完売すると発表しました。同サイト購読者向けに限定割引を提供し、参加者には Warp や Datadog などからのスポンサークレジットも付与されます。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み