AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
OpenAI News·2026年6月18日 20:00·約7分で読める

ChatGPT の健康知能の向上について

#LLM#医療 AI#OpenAI#ChatGPT#健康情報処理
TL;DR

OpenAI は、ChatGPT の医療・健康情報処理能力を強化し、より正確で有用な回答を提供する機能を発表した。

AI深層分析2026年6月19日 04:02
4
重要/ 5段階
深度40%
3
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

医療分野における精度向上の発表

OpenAI が ChatGPT の医療関連および健康情報の処理能力を大幅に強化したと公式に発表した。

2

有用性と正確性の両立への注力

単なる情報提供だけでなく、ユーザーにとってより安全で実用的な回答を提供することを目指している。

3

専門領域における AI の進化

一般会話から専門的なドメイン(医療)への適応を強化し、AI の実社会での信頼性を高める動きを示す。

影響分析・編集コメントを表示

影響分析

この発表は、大規模言語モデル(LLM)が一般用途から医療のような高リスク・高専門性の領域へ本格参入する重要な転換点を示しています。ユーザーの健康に関わる情報の扱いにおいて安全性と精度を高めることは、AI の社会実装における信頼構築に直結するため、業界全体にとって極めて重要な進展です。

編集コメント

医療分野は誤情報のリスクが極めて高いため、この機能強化はユーザーの安全確保と AI への信頼獲得において決定的な意義を持ちます。

健康は、人々が ChatGPT を利用する最も意味のある方法の一つです。毎週、2 億 3000 万人以上の人々が、健康情報の整理、検査結果の理解、診察への準備、保険手続きの案内、より健康的な習慣の構築、そして次に何を質問すべきかの検討など、健康やウェルネスに関する疑問に対して ChatGPT を活用しています。

GPT‑5.5 Instant の登場により、健康分野において顕著な進歩が見られます。緊急時のケアが必要となるタイミングの認識、関連する文脈の要求、不確実性の説明、複雑な情報の理解しやすさの向上などにおいて改善が図られています。最も困難とされる健康評価タスクにおいても、GPT‑5.5 Instant は、当社の最先端の Thinking モデル(Thinking models)に匹敵するレベルで動作します。このモデルは ChatGPT の無料ユーザーすべてに利用可能であるため、より多くの人々がこれらの改善から恩恵を受けることができます。

こうした進歩は、モデル機能の向上と、医師が主導して行われた健康評価のための取り組みの両方を反映しています。私たちの取り組み全体を通じて、世界中の医師ネットワークが、例示されたモデル回答のレビュー、理想的な行動の記述、失敗モードの特定などを通じて、現実世界の健康状況における「良い状態」がどのようなものかを定義する役割を果たしています。医師と連携することで、健康分野での進捗を測定し、ChatGPT の応答を時間とともに改善する方法を得ています。

健康分野における進捗の測定

医療分野における進歩とは、正確で理解しやすく、適切な判断に基づいた回答を提供することを意味します:より多くの文脈が必要となる場面を認識すること、自信の過剰な主張を避け不確実性を説明すること、そしていつ医療機関を受診すべきかを人々が理解するよう支援することです。

この進歩を測定するために、私たちは医療に特化した評価指標を使用しています。これには HealthBench や HealthBench Professional⁠(新しいウィンドウで開く) が含まれます。これらの評価では、現実的な医療会話と医師が作成した評価基準を用いて、正確性、安全性、コミュニケーション能力、文脈の理解度、完全性、および適切なエスカレーション(専門機関への紹介)などの品質を評価します。

*GPT‑5.5 Instant は、HealthBench Professional を含む健康関連評価の集計において、最新のフロンティアモデルと同等の医療パフォーマンスを示し、GPT‑5.3 Instant から大幅に改善されています。5.5 Instant(2026 年 5 月リリース)および 5.3 Instant(2026 年 3 月リリース)は、ChatGPT のすべての無料ユーザーが利用可能です(制限条件あり)。一方、5.4 Thinking および 5.5 Thinking のコスト計算には API 価格を使用しています。*

比較の一例として、医師に代表される健康会話への回答を記述してもらいました。この際、医師には制限なく時間とインターネットアクセスを提供しましたが(AI は使用不可)、別の医師パネルがその後、モデルからの回答と比較し、実際のやり取りで重要な品質——正確性、コミュニケーション能力、完全性、指示の遵守、および健康に関する意思決定の有用性など——を評価しました。この評価では 3,500 の回答レビューが行われました。

*GPT‑5.5 Instant の回答は、本評価におけるすべての基準において、医師が作成した回答や旧モデルの回答よりも高い評価を受けました。*

医師たちは、GPT‑5.5 Instant の回答には、旧モデルや医師による回答に見られるような失敗モード(failure modes)が少ないと評価しました。例えば、GPT‑5.5 Instant は、地域の医療文脈への適合不足、危険信号(red flags)の見過ごし、または必要なケアへの紹介の欠如、あるいは必要に応じてユーザーから追加の文脈情報を取得しようとしなかったといった事例が、旧モデルや医師による回答よりも少なかったのです。

当社のモデルが健康分野で利用されている規模を考慮すると、最近のモデル改善を理解する別の方法として、本番環境でのトラフィック(production traffic)を測定することが挙げられます。私たちは、プライバシーを保護する監視ツールを用いて本番トラフィックを追跡し、健康回答における事実性の問題の可能性を検出しています。直近の健康分野における本番トラフィック(週に数十億件のメッセージ)を比較した結果、少なくとも 1 つの事実性フラグが付けられた回答の割合は、過去 2 ヶ月間で 71% 減少しました。

より良い回答とはどのようなものか

時系列にわたる実世界の健康質問に対するモデルの回答を比較することで、ChatGPT が健康において重要な点でどのように改善されたかがわかります。具体的には、状況が緊急を要する可能性があることを認識し、不確実性をより良い判断で扱い、次に何をすべきかについて人々により明確で有用なガイダンスを提供できるようになったことです。

進歩の背後にある医療専門知識

この進歩は、ChatGPT の健康回答を定義・測定・改善するために私たちを支援する医師たちによって形作られています。

OpenAI は、60 カ国、49 の言語、26 の医学専門分野にわたる 260 名以上の医師からなるグローバルネットワークと協力しています。彼らのフィードバックは、日常の健康に関する質問からより複雑な臨床状況に至るまで、幅広いシナリオにおける ChatGPT の健康回答への対応方法を決定する上で重要な役割を果たします。

医師たちはモデルの例示回答をレビューし、それらが正確か、明確か、完全か、適切に慎重か、そして有用かを評価します。彼らは、回答が重要な文脈を見落としている箇所や、過度に自信を持っているように聞こえる箇所、次のステップについてより明確であるべき箇所、あるいは医療機関への受診をより直接的に促すべき箇所を特定するのを助けます。

これまで医師たちは、現実世界における患者や医療従事者が ChatGPT をどのように利用しているかを示す 70 万件を超えるモデル回答例をレビューしてきました。数分ごとに新しい回答が医師によってレビューされ、そのフィードバックは、回答が正確か、安全か、明確か、完全か、適切に慎重か、そして現実の医療状況において有用かを研究者が測定するための評価基準やルーブリックとして機能します。これにより、モデルがどこで改善され、どこでまだ作業が必要なのかをより明確に把握できるようになります。

健康改善をより多くの人へ届けるために

この取り組みは、OpenAI の医療分野における広範な活動も支えるものであり、ドキュメンテーション、研究、ケア提供などのタスクを医療専門家が支援するためのツールとして構築された「ChatGPT for Clinicians」や「OpenAI for Healthcare」が含まれます。

人間の健康の改善は、AGI(汎用人工知能)がもたらす最も個人的で具体的な影響の一つとなるでしょう。モデルがさらに向上していくにつれ、私たちの目標は、そのような瞬間において ChatGPT をより正確に、より有用に、そしてより大きな影響力を持つものとし、その進歩をより多くの人々に届けていくことです。

原文を表示

Health is one of the most meaningful ways people use ChatGPT. Every week, more than 230 million people turn to ChatGPT for help with health and wellness questions: making sense of health information, understanding lab results, preparing for appointments, navigating insurance, building healthier habits, and figuring out what to ask next.

With GPT‑5.5 Instant, we’re seeing a substantial step forward in health, with improvements in recognizing when urgent care may be needed, asking for relevant context, explaining uncertainty, and making complex information easier to understand. On our most challenging health evaluations, GPT‑5.5 Instant now performs at a level comparable to our frontier Thinking models. Because it is available to all free users in ChatGPT, more people can benefit from these improvements.

That progress reflects both advances in model capabilities and the physician-led work behind our health evaluations. Across our efforts, a global network of physicians helps define what “good” looks like in real-world health situations by reviewing example model responses, describing ideal behavior, and identifying failure modes. Working with physicians gives us a way to measure progress in health and improve how ChatGPT responds over time.

Measuring progress in health

In health, progress means delivering responses that are accurate, understandable, and grounded in good judgment: recognizing when more context is needed, explaining uncertainty without overstating confidence, and helping people understand when to seek care.

To measure that progress, we use health-specific evaluations, including HealthBench⁠ and HealthBench Professional⁠(opens in a new window). These evaluations use realistic health conversations and physician-written rubrics to assess qualities like accuracy, safety, communication, context awareness, completeness, and appropriate escalation.

As another comparison, we asked physicians to write responses for representative health conversations, with unlimited time and access to the internet (but not AI). A separate panel of physicians then compared these physician responses with model responses over time, reviewing qualities that matter in real interactions, including accuracy, communication, completeness, instruction following, and health decision helpfulness, across 3,500 reviewed responses.

Physicians rated GPT‑5.5 Instant responses as having fewer failure modes than those from older models and physicians. For example, GPT‑5.5 Instant had fewer instances of not tailoring to local healthcare context, missing red flags or referral to care, or failing to seek additional context from the user when needed than both older models and physicians.

Given the scale of usage of our models in health, another way to understand recent model improvements is to measure production traffic. We use privacy-preserving monitors on production traffic to track possible factuality issues in health responses. Based on a comparison of recent production traffic in health—billions of messages a week—the rate of responses with at least one flagged factuality issue has fallen by 71% in the last two months.

What better responses look like

Comparing responses from models on real-world health questions over time shows how ChatGPT has improved in ways that matter for health: recognizing when a situation may need urgent attention, handling uncertainty with better judgment, and giving people clearer, more useful guidance about what to do next.

The medical expertise behind the progress

This progress is shaped by physicians who help us define, measure, and improve health responses in ChatGPT.

OpenAI works with a global network of more than 260 physicians across 60 countries, 49 languages, and 26 medical specialties. Their feedback informs how ChatGPT responds to health questions across a wide range of scenarios, from everyday wellness questions to more complex clinical situations.

Physicians review example model responses and assess whether they are accurate, clear, complete, appropriately cautious, and useful. They help identify where a response may miss important context, where it may sound too confident, where it should be clearer about next steps, or more directly encourage someone to seek medical care.

To date, physicians have reviewed more than 700,000 example model responses that reflect how patients and clinicians use ChatGPT in the real world. Every few minutes, a physician reviews a new response. Their feedback becomes rubrics and evaluation criteria that help researchers measure whether responses are accurate, safe, clear, complete, appropriately cautious, and useful in real-world health situations. This gives us a clearer way to see where models are getting better and where they still need work.

Bringing health improvements to more people

This work also supports OpenAI’s broader work in health, including tools built for healthcare, such as ChatGPT for Clinicians⁠ and OpenAI for Healthcare⁠, which support medical professionals with tasks like documentation, research, and care delivery.

Improving human health will be one of the most personal, tangible impacts of AGI. As our models continue to improve, our goal is to make ChatGPT more accurate, more useful, and more impactful in those moments — and to keep bringing that progress to more people.

この記事をシェア

関連記事

AI News★42026年6月18日 18:00

マイクロソフトが中国で OpenAI モデルを販売、OpenAI と Anthropic は参入せず

マイクロソフトは知的財産や悪用リスクを理由に OpenAI や Anthropic が直接市場に出さない中、中国の大手インターネット企業向けに GPT シリーズモデルの販売を開始し、米国 AI ベンダーとして独自の地位を確立した。

OpenAI News★32026年6月18日 17:00

AI を用いて小児の希少遺伝性疾患を診断する医師支援

OpenAI は、AI を活用して医師が小児に発症する希少遺伝性疾患をより迅速かつ正確に診断できるよう支援する取り組みを発表した。

TLDR AI★42026年6月18日 09:00

ChatGPT の市場シェアが初めて 50% を下回る

OpenAI が開発する ChatGPT の市場シェアが過去に初めて 50% を割り込み、ユーザーは Google Gemini や Anthropic の Claude など他社製アシスタントへ移行している。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む