ChatGPT が敏感な会話における文脈認識を向上させる支援
OpenAI は、ChatGPT が自殺や自傷行為などの危険な兆候を文脈からより正確に検知し、適切なリソースへ誘導するための安全アップデートを発表した。
キーポイント
文脈に基づくリスク検知の強化
単発のメッセージではなく、会話全体の履歴や微妙な変化(進化する兆候)を分析することで、潜在的な危険性をより正確に識別する能力が向上した。
専門家との連携とポリシー更新
メンタルヘルスおよび安全の専門家と 2 年以上にわたる協力のもと、モデルのトレーニングとポリシーが急性的高リスクシナリオ(自殺、自傷、他者への危害)向けに更新された。
過剰反応の防止と適切な対応
日常会話での誤検知を防ぎつつ、真に危険なケースでは対話の沈静化や有害情報の拒否、安全な代替案への誘導など、文脈に応じた慎重なレスポンスを可能にする。
信頼できる連絡先機能との連携
危機的状況にあるユーザーに対して、既存の「信頼できる連絡先」機能や危機リソースへの接続と組み合わせることで、より包括的な安全対策を提供する。
影響分析・編集コメントを表示
影響分析
このアップデートは、生成 AI の安全性において「文脈理解」が単なる機能向上ではなく、人命に関わる重要な要素であることを示す決定的な一歩です。ユーザーの意図を表面的な言葉だけでなく、会話の流れや心理的状態まで含めて判断できるようになることで、AI が危機的状況にある人々に対する責任ある対応者としての役割を果たせる可能性が高まります。
編集コメント
単発のメッセージ判断から、会話全体の文脈を考慮したリスク検知へ移行したのは、実社会での AI 活用における安全性確保の重要な転換点です。特にメンタルヘルス分野との連携強化は、技術的アプローチだけでなく倫理的責任の遂行においても模範となる動きと言えます。
人々は毎日、自分にとって重要なことについて ChatGPT と話し合うために訪れます。日常の質問から、より個人的または複雑な会話までです。何億回というやり取りの中で、これらの会話の一部には、苦悩したり精神的に distress している人々が含まれています。私たちは、危機リソースを提供し、必要に応じて信頼できる人に つなぐ ことで、こうした場面で慎重に対応するようシステムを設計しています。
本日、ChatGPT が時間とともにリスクが生じつつある可能性を、微妙または変化する手がかり(cues)の特定を通じてよりよく認識し、その文脈(context)を用いて安全な応答を導き出すための安全性アップデートに関する新しい詳細を発表します。 これにより、ChatGPT は人々が毎日行う何億回もの安全なやり取りと、追加の注意が必要なはるかに稀なケースを区別できるようになり、より慎重に応答することができます。具体的には、エスカレーションを防いだり、有害な詳細を拒否したり、より安全な代替案へと誘導したりすることです。
これらの改善点は、モデルトレーニング、評価、監視システムにおける長年にわたる 広範な取り組み と、メンタルヘルスおよび安全性の専門家との 2 年以上にわたる協力の上に築かれています。
敏感な会話において文脈が重要な理由
機微な会話において、文脈は単一のメッセージと同様に重要になり得ます。それ自体では平凡または曖昧に見える要求も、以前の苦痛の兆候や有害な意図の可能性と併せて見れば、非常に異なる意味を帯びることがあります。適切に対応するためには、ChatGPT に周囲の文脈から潜在的な有害な意図を認識させるよう訓練し、それによって要求を拒否し、状況を緩和し、ユーザーを支援へと導く必要があります。
これらのケースは稀ですが、正しく対応することが極めて重要です。私たちの目標は、重要な局面において ChatGPT が関連する信号を結びつけるのを助けつつ、通常の会話では過剰反応しないようにすることです。
今回の取り組みでは、自殺、自傷行為、他者への危害といった急性のシナリオに焦点を当てました。メンタルヘルスの専門家と連携し、モデルの方針とトレーニングを更新して、会話の過程で現れる警告サインを認識する ChatGPT の能力を高め、その文脈を活用してより慎重な対応を行えるようにしました。
これらの稀かつ高リスクの状況において、ChatGPT は悪意のないリクエストと、より高い危害リスクを示す可能性のあるリクエストをより適切に区別できるようになります。これは、ユーザー要求の安全でない部分を拒否し、安全に行える場合は慎重に対応するように設計された当社の 安全完了アプローチ に基づいています。目的は、会話内で危害の兆候が現れた際に警戒を高める一方で、悪意のない状況では引き続き有益に応答できるよう、モデルが文脈により適切に対応できるように支援することです。
会話全体にわたる安全性の向上
一部の安全リスクは、別々の会話にまたがって発生する可能性があります。ある会話には潜在的な有害な意図を示す微妙な兆候が含まれており、別の会話では、それ以前の文脈と組み合わせて理解された場合にのみ懸念を引き起こす関連するリクエストが含まれている場合があります。その安全に関連する文脈がない場合、後の会話 – および重要な警告サイン – は悪意のないものとして見えてしまう可能性があります
ChatGPT がこれらの苦痛の兆候を認識する能力を強化するための長年の取り組みに基づき、私たちは「安全性サマリー」を開発しました。これは、稀ではあるがリスクの高い状況において重要となる可能性のある、以前の安全に関連する文脈に関する短く事実に基づいたメモです。これらは安全推論タスク用に訓練されたモデルによって作成され、範囲は限定されており、限られた期間のみ保持され、深刻な安全性の懸念に関連する場合にのみ使用されます。これらは一般的なパーソナライゼーションや長期記憶として機能するものではなく、事実ベースの安全文脈を捉えるために設計されています。前述したように、ChatGPT にもこの文脈をより慎重に使用するよう訓練しており、追加の注意が必要な場面をよりよく認識し、適切に対応できるようにしています。具体的には、状況を緩和したり、詳細を提供することを拒否したり、より安全な代替案へと誘導したりする対応です。
メンタルヘルス専門家との連携
これらのシステムは、当社の グローバル医師ネットワーク に所属するメンタルヘルスの専門家の助言を得て開発されました。これには、法医学心理学、自殺予防、自傷行為の分野に精通した精神科医や心理学者が含まれます。
これらの専門家は、安全性サマリーを作成すべきタイミング、どの程度の過去の文脈が関連性を持つ可能性があるか、またモデルが応答する際にその文脈をどの程度考慮すべきかといった決定に貢献しました。彼らの助言により、この取り組みは実世界の専門知識に基づき、敏感な状況においてより適切な対応が可能となりました。
改善の測定
これらの更新により、ChatGPT は会話内および会話間において潜在的に有害な意図のパターンをより適切に認識できるようになります。懸念すべき兆候が徐々に現れる場合でも、モデルはパターンを特定し、より安全に対応することが可能になります。
特に困難なケースにおけるパフォーマンスを測定するために設計された内部評価では、リスクが時間とともに明確になるシナリオにおいて、安全な回答の割合が大幅に向上しました。これらのテストは、高リスク状況を模倣するように設計された会話において、モデルがいかに頻繁に意図した安全な回答を提供するかを測定するものです。
単一の長い会話シナリオにおいては、自殺および自傷行為に関するケースで安全な回答のパフォーマンスが 50% 向上し、他者への危害に関するケースでは 16% 向上しました。これは、会話の前半部分が後半の要求の意味を変化させた場合をモデルがより確実に認識し、適切に対応する可能性が高まったことを意味します。
また、これらの改善がモデルの進化に伴っても効果を保ち続けるよう確保するため、複数の会話および複数のモデルにわたるパフォーマンスもテストしました。ChatGPT の現在のデフォルトモデルである GPT‑5.5 Instant においては、他者への危害に関するケースで安全な回答のパフォーマンスが 52% 向上し、自殺および自傷行為に関するケースでは 39% 向上しました。
また、安全サマリー自体の質も評価しました。4,000 件を超える評価において、平均的な安全性関連スコアは 5 点満点で 4.93 点、事実性スコアは同様に 4.34 点を記録し、これらは全体的に正確であり、最も重要な安全文脈に焦点を当てていることを示しています。
最後に、この安全文脈を追加することが通常の会話の質を低下させるかどうかを検証しました。社内テストでは、日常チャットにおける回答は全体的に同等の品質を維持しており、安全サマリーあり・なしの間でユーザーが明確な好みを示すことはありませんでした。
今後の展望
時間を経て初めて明らかになるリスクを AI システムが認識できるよう支援することは、困難かつ長期的な課題です。シグナルは微妙であったり、メッセージ間に分散していたり、それ自体は平凡な会話の中に埋もれていたりする可能性があります。私たちは、ChatGPT がそのような稀だが重要な瞬間を特定し、適切に対応する能力を継続して向上させていきます。
本日発表されたこの研究は、自傷行為や他者への危害のシナリオに焦点を当てています。今後は、生物学やサイバーセキュリティといった他の高リスク領域においても同様の手法が有効かどうかを探求する可能性があります。その際、適切なセーフガードを講じた上で検討を進めます。これは継続的な優先事項であり、モデルや理解が進展するにつれて、セーフガードの強化も続けていきます。
当社の安全およびメンタルヘルスに関する取り組みの詳細はこちら:
原文を表示
People come to ChatGPT every day to talk about what matters to them—from everyday questions to more personal or complex conversations. Across hundreds of millions of interactions, some of these conversations include people who are struggling or experiencing distress. We design our systems to respond carefully in these moments, including by providing crisis resources and connecting people with someone they trust when needed.
Today, we’re sharing new details about safety updates that help ChatGPT better recognize when risk may be emerging over time by identifying subtle or evolving cues, and using that context to inform safe responses. This helps ChatGPT distinguish between the hundreds of millions of safe interactions people have every day and the much rarer cases where added caution is needed, so it can respond more carefully—for example, by de-escalating, refusing harmful details, or redirecting toward safer alternatives.
These improvements build on years of extensive work across model training, evaluations, monitoring systems, and more than two years of collaboration with mental health and safety experts.
Why context matters in sensitive conversations
In sensitive conversations, context can matter as much as a single message. A request that appears ordinary or ambiguous on its own may carry a very different meaning when viewed alongside earlier signs of distress or possible harmful intent. To respond appropriately, we train ChatGPT to recognize the potential harmful intent from the surrounding context so that it can refuse the request, de-escalate, and guide the user toward support.
These cases are uncommon, but critically important to get right. Our goal is to help ChatGPT connect relevant signals when they matter without overreacting in ordinary conversations.
We focused this work on acute scenarios including suicide, self-harm, and harm-to-others. Working with mental health experts, we updated our model policies and training to improve ChatGPT’s ability to recognize warning signs that emerge over the course of a conversation and use that context to inform more careful responses.
In these rare, high-risk situations, ChatGPT can better distinguish between benign requests and those that may signal a higher risk of harm. This builds on our safe completion approach, which is designed to refuse unsafe parts of a user request, and respond cautiously where it can safely do so. The goal is to help the model respond more appropriately to context, escalating caution when signals of harm emerge within conversations, while continuing to respond helpfully in benign situations.
Improving safety across conversations
Some safety risks can emerge across separate conversations. One conversation may include subtle signs of potentially harmful intent and then another may include related requests that only trigger concerns when understood in combination with the prior context. Without that safety-relevant context, the later conversation – and potentially important warning signs – may appear benign
Building on our longstanding work to strengthen ChatGPT’s ability to recognize these signs of distress, we developed safety summaries: short, factual notes about earlier safety-relevant context that may matter in rare, high-risk situations. These summaries are created by a model trained for safety reasoning tasks and are narrowly scoped, kept only for a limited time, and used only when relevant to a serious safety concern. They are designed to capture factual safety context, not to serve as general personalization or long-term memory. Like we discussed above, we also trained ChatGPT to use this context more carefully, so it can better recognize when added caution is needed and respond appropriately – for example by de-escalating, refusing to provide details, or redirecting toward safer alternatives.
Working with mental health experts
We developed these systems with input from mental health professionals in our Global Physicians Network, including psychiatrists and psychologists with expertise in forensic psychology, suicide prevention, and self-harm.
These experts helped inform decisions around when safety summaries should be created, how much prior context may be relevant, and how long the model should consider that context when responding. Their input helped ground this work in real-world expertise and support more appropriate responses in sensitive situations.
Measuring improvement
These updates help ChatGPT better recognize patterns of potentially harmful intent both within and across conversations. When concerning signals emerge gradually, the model is better able to identify the pattern and respond more safely.
In internal evaluations specifically designed to measure performance in challenging cases, these updates significantly improved safe responses in scenarios where risk became clearer over time. These tests measured how often the model gave the intended safe response in conversations designed to emulate high-risk situations.
In long single-conversation scenarios, the safe-response performance improved by 50% in suicide and self-harm cases, and by 16% in harm-to-others cases. This means the model was substantially more likely to recognize when earlier parts of the conversation changed the meaning of a later request and respond appropriately.
We also tested performance across multiple conversations and multiple models to help ensure these improvements remain effective as models evolve. On GPT‑5.5 Instant, the current default model in ChatGPT, the safe-response performance improved by 52% in harm-to-others cases and by 39% in suicide and self-harm cases.
We also evaluated the quality of the safety summaries themselves. Across more than 4,000 evaluations, they received an average safety relevance score of 4.93 out of 5 and a factuality score of 4.34 out of 5, indicating they were generally accurate and focused on the most important safety context.
Finally, we tested whether adding this safety context reduced quality in ordinary conversations. In our internal testing, responses remained broadly comparable in everyday chats, with no meaningful user preference between responses with or without safety summaries.
Looking ahead
Helping AI systems recognize risk that only becomes clear over time is a difficult, long-term challenge. Signals can be subtle, spread across messages, or buried within otherwise ordinary conversations. We will continue improving ChatGPT’s ability to identify those rare but important moments and respond appropriately.
Today, this work focuses on self-harm and harm-to-others scenarios. In the future, we may explore whether similar methods can help in other high-risk areas such as biology or cyber safety, with careful safeguards in place. This remains an ongoing priority, and we will continue strengthening safeguards as our models and understanding evolve.
Read more about our safety and mental health work:
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み