オンタリオ州監査:医師用AIノートテイクが事実を誤る
オンタリオ州の監査により、医療現場で承認された AI ノートテイクシステムの約半数が患者情報の虚偽作成や重大な見落としを起こしており、評価基準の不備も浮き彫りとなった。
キーポイント
AI システムの深刻な不具合とハルシネーション
20 社の承認済みシステムのうち 9 社が患者や医師との会話にない治療計画を捏造し、12 社が誤った薬物情報を記載するなど、医療安全に関わる重大なエラーが発生している。
評価プロセスと採点基準の構造的欠陥
システムの正確性が総評価のわずか 4% に過ぎず、国内存在の有無が 30% を占めるなど、安全性よりも市場参入条件を重視した不適切な調達・評価プロセスが批判されている。
医療専門家の手動確認義務と機能不足
OntarioMD は医師による手動レビューを推奨しているが、承認システムには誤りを防ぐための必須の検証(アテステーション)機能が実装されていないことが報告された。
メンタルヘルス情報の見落とし
20 社のうち 17 社が患者の精神健康に関する重要な詳細を見落とし、6 社は完全に欠落させるなど、繊細な医療情報の処理において特に低いパフォーマンスを示した。
影響分析・編集コメントを表示
影響分析
このニュースは、AI の医療分野への導入が単なる効率化ツールとしてではなく、患者の生命に関わる重大なリスク要因となり得ることを示す決定的な証拠となった。特に評価基準の不備が指摘された点は、行政による AI 調達プロセス全体の見直しを迫るものであり、業界全体で「精度」よりも「政治的・経済的条件」を優先する傾向への警鐘となっている。今後は、医療 AI の承認プロセスにおける厳格な臨床検証と、誤り検知機能の標準化が急務となるだろう。
編集コメント
医療現場における AI の信頼性は、単なる技術の精度だけでなく、それを導入・評価する行政プロセスの健全性に依存していることが浮き彫りになりました。今回の件は、AI 導入において「機能の多さ」や「政治的配慮」よりも「患者安全」という絶対的な基準を最優先すべきだと強く示唆しています。
オンタリオ州の医療提供者向けに承認された AI システムは、重要な詳細を見落とし、誤った情報を挿入し、患者も臨床医も言及していない内容を捏造する傾向が、20 社の承認ベンダーのシステムを対象とした州監査によって明らかになりました。この発見は、カナダのオンタリオ州監査総長事務所によるもので、同州の公共サービスにおける AI 利用状況に関するより広範な報告書に含まれています。これらは特に、オンタリオ州保健省が医師、看護師、およびより広い医療セクターの他の医療専門家のために開始した「AI Scribe」プログラムに焦点を当てています。
調達プロセスの一環として、当局は模擬的な医師 - 患者の録音を用いて評価を行いました。その後、医療専門家は元の録音と AI が生成したノートを見比べ、その正確性を評価しました。彼らが見つけたことは、危機的状況における AI の精度を懸念する人々にとって、正直に言って衝撃的なものでした。
報告書によると、20 件の AI システムのうち 9 件が「録音で議論されていない患者の治療計画に関する情報を捏造し、提案を行った」とされています。報告書によれば、評価者はサンプルレポートにおいて、腫瘍が見つからなかったり、患者が不安を抱えていたりするなど、致命的な誤った情報を発見しましたが、これらは録音では一切言及されていませんでした。
評価された 20 のシステムのうち 12 が患者ノートに誤った薬物情報を挿入し、17 が「録音で議論された患者のメンタルヘルス問題に関する重要な詳細を見落とした」とされています。報告書によると、6 つのシステムは「患者のメンタルヘルス問題を完全にまたは部分的に見落とし、あるいは重要な詳細を欠いていた」ことが示されました。
新しい技術の導入を医師に支援し、AI Scribe の調達プロセスに関与した団体である OntarioMD は、医師が AI ノートの正確性を手動で確認するよう推奨していますが、報告書では、承認されたどの AI Scribe システムにも必須の証明機能がないと指摘されています。
評価が悪いこともまた、問題です。AI システムが間違いを犯すことは決して驚くべきことではありません。私たちが以前報じたように、消費者向け AI はユーザーに誤った医療情報を提供する傾向があり、いくつかの研究では、大規模言語モデルがテストされた症例の約 80% で適切な鑑別診断を生み出せていないことが示されています。
しかし、ここで評価されたツールは消費者ではなく医師向けのものです。このような poor なパフォーマンスには説明が必要です。
報告書の大部分は、システムがどのように評価されたかに責任を転嫁しています。報告書によると、AI Scribe のパフォーマンスの各カテゴリに割り当てられた重みが不正確でした。プラットフォームの評価スコアの 30% がオンタリオ州内に国内拠点を持つかどうかという点のみで決定される一方、医療ノートの正確性が総スコアに寄与したのはわずか 4% でした。
バイアス制御は総評価スコアの 2% に過ぎず、脅威・リスク・プライバシー評価もさらに 2% を占めるにすぎませんでした。また、SOC 2 Type 2 コンプライアンスは追加で 4 ポイントしか貢献していません。つまり、正確性、バイアス制御、および重要なセキュリティとプライバシー保護に関連する基準は、AI Scribe システムの総評価スコアのほんの一部に過ぎなかったのです。
報告書は「不正確な重み付けにより、不正確または偏った医療記録を生成する可能性のあるベンダーや、機密性の高い個人情報を守るための十分な保護手段を欠くベンダーが選定される結果になる可能性がある」と述べています。
The Register はオンタリオ州保健省にこの報告書に対する見解と、AI Scribe プログラムに関する同省の推奨事項に従う予定があるかどうかについて問い合わせましたが、すぐに回答は得られませんでした。同省の広報担当者は水曜日に CBC に対し、オンタリオ州では 5,000 人以上の医師が AI Scribe プログラムに参加しており、この技術に関連する患者への被害に関する既知の報告はないと述べています。
®
原文を表示
The AI systems approved for Ontario healthcare providers routinely missed critical details, inserted incorrect information, and hallucinated content that neither patients nor clinicians mentioned, according to a provincial audit of 20 approved vendors’ systems. The findings come from the Office of the Auditor General of Ontario, Canada, and are included in a larger report about the state of AI usage by public services in the province. They specifically address the AI Scribe program, the Ontario Ministry of Health initiated for physicians, nurse practitioners, and other healthcare professionals across the broader health sector. As part of the procurement process, officials conducted evaluations using simulated doctor-patient recordings. Medical professionals then reviewed the original recordings alongside the AI-generated notes to evaluate their accuracy. What they found was, frankly, shocking for anyone concerned about the accuracy of AI in critical situations. Nine out of 20 AI systems reportedly “fabricated information and made suggestions to patients' treatment plans” that weren’t discussed in the recordings. According to the report, evaluators spotted potentially devastating incorrect information in the sample reports, such as no masses being found, or patients being anxious, even though these things were never discussed in the recordings. Twelve of the 20 systems evaluated inserted incorrect drug information into patient notes, while 17 of the systems “missed key details about the patients’ mental health issues” that were discussed in the recordings. Six of the systems “missed the patients’ mental health issues fully or partially or were missing key details,” per the report. OntarioMD, a group that offers support for physicians in adopting new technologies and was involved in the AI Scribe procurement process, has recommended that doctors manually review their AI notes for accuracy, but the report notes there’s no mandatory attestation feature in any of the AI Scribe-approved systems. Bad evaluations don’t help, either AI systems making mistakes isn’t exactly shocking. As we’ve reported previously, consumer-focused AI has a tendency to provide bad medical information to users, and some studies have found large language models failed to produce appropriate differential diagnoses in roughly 80 percent of tested cases. But the tools evaluated here are for doctors, not consumers, and such poor performance necessitates explanation. A good portion of the report blames how the systems were evaluated. According to the report, the weight given to various categories of AI Scribe performances was wonky. While 30 percent of a platform’s evaluation score depended solely on whether they had a domestic presence in Ontario, the accuracy of medical notes contributed only 4 percent to the total score. Bias controls accounted for only 2 percent of the total evaluation score; threat, risk, and privacy assessments counted for another 2 percent; and SOC 2 Type 2 compliance contributed an additional 4 percentage points. In other words, criteria tied to accuracy, bias controls, and key security and privacy safeguards made up only a small portion of the total evaluation score for the AI Scribe systems. “Inaccurate weightings could result in the selection of vendors whose AI tools may produce inaccurate or biased medical records or lack adequate protection to safeguard sensitive personal health information,” the report said of the scoring regime. The Register reached out to the Ontario Health Ministry for its take on the report, and whether it was going to conform to its recommendations for the AI Scribe program, but we didn’t immediately hear back. A spokesperson for the Ministry told the CBC on Wednesday that more than 5,000 physicians in Ontario are participating in the AI Scribe program and there have been no known reports of patient harms associated with the technology. ®
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み