プライバシーを保護しながら世界を学習する ChatGPT の仕組み
OpenAI は、モデルの能力向上とプライバシー保護を両立させるため、学習データから個人情報を除去する「Privacy Filter」技術の詳細と、ユーザーが会話データの活用を制御できる仕組みを発表した。
キーポイント
学習に使用される情報の範囲
モデル開発には公開情報、パートナーシップ経由の情報、およびユーザーや研究者からの提供データが含まれるが、インターネット上の情報は自由にアクセス可能なもののみが対象となる。
個人情報除去の技術的対策
学習前の段階で「OpenAI Privacy Filter」を適用し、テキスト内の個人情報を特定してマスクする仕組みを導入しており、同種のツールの中で最も効果が高いと評価されている。
ユーザーによるデータ制御権限
ユーザーは ChatGPT の会話履歴がモデル改善のために使用されるかどうかを自分で選択・管理できる設定やポリシーを提供している。
影響分析・編集コメントを表示
影響分析
この発表は、生成 AI の急激な進化に伴うプライバシー懸念に対し、技術的な解決策(Privacy Filter)とガバナンスの両面から回答を示した点で重要です。業界全体として「データの質」と「倫理的利用」をどう両立させるかという課題に対する OpenAI の明確なスタンスは、競合他社や規制当局からの信頼獲得に寄与し、LLM 開発におけるプライバシー基準の再定義に影響を与える可能性があります。
編集コメント
技術的なプライバシー保護手法の具体化と、ユーザーエンパワーメントを両輪とした信頼構築への取り組みが明確に示された重要なニュースです。
*カナダ向け編集者注記:フランス語訳は英語訳の後に続きます(Le texte français suit le texte anglais)。
ChatGPT はドメインを超えて能力を向上させ、コーディング、研究、分析、ツール間での多段階タスクなど、複雑な実世界の業務において人々を支援しています。これらの能力向上は、モデルが世界の広範な知識を構築し、新しいタスクに応用できるよう、多様なデータを用いてトレーニングを行うことによってもたらされています。
OpenAI が最先端のモデルを開発し続ける中で、私たちはモデルのトレーニングプロセスがプライバシーを尊重するよう努めています。私たちが開発した最先端技術は、モデルが個人に関する個人情報ではなく、有用な一般的なパターンを学習することを支援するものであり、また、個人が自らのデータをコントロールできるよう支援するためのユーザー制御機能やポリシーも多数用意しています。
本記事では、モデルトレーニングに使用される可能性がある情報について、そのプロセスにおける個人情報の処理をどのように削減しているか、そしてユーザーが ChatGPT の会話がモデル改善に役立つかどうかをどのように制御できるかについて説明します。
トレーニングに使用される可能性のある情報
ChatGPT を支える モデルを開発するために、私たちは公開されている情報、パートナーシップを通じてアクセスできる情報、ユーザーや契約者、研究者によって提供または生成された情報の混合を用いています。このデータは、モデルが一般的な知識を構築し、より信頼性が高く安全に応答することを可能にします。
公開されているインターネットコンテンツについては、自由にかつ公然とアクセス可能な情報のみを使用しています。例えば、あなたが公開されているオンライン討論フォーラムに参加したり、ブログやその他の公開投稿を行ったりした場合、私たちはその公開されたコンテンツをモデルのトレーニング目的のために使用することがあります。
トレーニングにおける個人情報の削減方法
情報がトレーニングに使用される前に、データセット内の個人情報を削減するために設計されたセーフガードを適用します。その一つが OpenAI Privacy Filter です。これはテキスト内の個人情報を特定し、マスキングするものです。私たちの評価では、Privacy Filter は同種の他のツールよりも個人情報除去においてより効果的です。
私たちは、トレーニングに使用する公開データセットや、「みんなのためにモデルを改善する」オプションが有効になっている場合のユーザー会話など、トレーニングプロセスの複数の段階で、内部版の Privacy Filter を使用しています。
ChatGPT におけるプライバシー制御
ユーザーは、ChatGPT との会話内容が将来のモデル学習に役立つかどうかを選択できます。設定画面から「データコントロール」へ移動し、「すべての人のためのモデル改善」をオフにします(新しいウィンドウで開く)。この設定をオフにすると、新しい会話はチャット履歴に表示されますが、ChatGPT の学習には使用されません。
一時的チャット(新しいウィンドウで開く)は別の選択肢を提供します。開始するには、新規チャットを開き、ページの右上にある「一時的」ボタンをクリックしてください。一時的チャットはチャット履歴に表示されず、記憶を作成せず、モデル改善にも使用されません。会話内容はセキュリティ目的で 30 日間保持された後、削除されます。
さらに、メモリ(新しいウィンドウで開く)機能により、ChatGPT の回答がより有用になります。これは、重要な人物や現在取り組んでいるプロジェクト、よく質問するトピックなど、ChatGPT に繰り返し伝える必要のない情報を記憶するためです。この機能は常に任意であり、保存されたメモリを確認・編集・削除したり、メモリ機能を完全にオフにしたりできます。オフにすると、ChatGPT は過去のチャットからメモリを保存または参照しません。
ユーザーは、ChatGPT のデータをエクスポートしたり、アカウントを削除したり、設定からデータ管理を行ったり、プライバシーリクエストポータル(新しいウィンドウで開く) を通じてプライバシーに関するリクエストを送信することもできます。ChatGPT では、使用やレビューを望まない機密情報を共有しないようにしてください。
レスポンスにおけるプライバシーの保護
私たちが真剣に取り組む責任
人々は、ChatGPT をますます個人的な用途で利用しており、生活の敏感な部分に触れる質問やタスクにも用いられています。私たちは、この信頼に伴う深い責任を認識しています。ChatGPT を利用する人々を深く大切にしており、彼らのプライバシー保護は、私たちがシステムを構築する上で中核的な要素です。また、プライバシーの保護と深刻な危害リスクへの対応は、両立して行わなければならないことも認識しています。私たちはこの責任を真摯に受け止め、プライバシー safeguards を維持しつつ、暴力に関する信頼性の高い脅威を検知し対応する方法を強化し続けています。私たちのコミュニティ安全および執行方針についてはこちらをご覧ください。モデルの能力が高まるにつれ、私たちは引き続き safeguards の改善を行い、プライバシー制御をより明確にし、人々が自らの情報の使用方法を実践的に決定できる手段を提供していきます。
*ChatGPTにおけるモデルのトレーニング、プライバシー保護対策、およびプライバシーに関する選択肢について、わかりやすい言葉で解説するガイド。
ChatGPTはさまざまな分野でますます高性能となり、プログラミング、調査、分析、複数のツールを活用した多段階タスクなど、複雑で具体的なタスクを人々が達成できるよう支援しています。これらの能力向上は、モデルが世界についての広範な知識を獲得し、新しいタスクに応用できるようにする、多様なデータを用いたトレーニングによって可能になっています。
OpenAI が最先端のモデルの開発を続ける中で、モデルのトレーニングプロセスがプライバシーを尊重していることを確実にするため、私たちは全力で取り組んでいます。私たちが開発した最先端の技術は、モデルが有用な一般的な傾向を学習する一方で、個人に関する機密情報を学習しないよう支援し、また人々が自身のデータをコントロールし続けることができるよう、複数の制御手段とポリシーを導入しています。
この記事では、モデルの学習に使用できる情報について、個人情報処理をどのように削減しているか、そしてユーザーが ChatGPT での会話内容をモデル改善に利用するかどうかを選択できる仕組みについて説明します。
モデル学習に使用可能な情報
ChatGPT を支えるモデルを開発するため、私たちは公開情報、パートナーシップを通じてアクセスできる情報、ユーザーやプロバイダー、研究者が提供または生成した情報を組み合わせた情報源のセットを利用しています。これらのデータにより、モデルは一般的な知識を獲得し、より信頼性が高く安全な回答を提供できるようになります。
公開されているインターネットコンテンツについては、自由にかつ公然とアクセス可能な情報のみを採用します。例えば、公開されたオンラインディスカッションフォーラムに参加したり、ブログやその他の公開記事を執筆したりした場合、私たちはその公開コンテンツをモデル学習の目的で使用することがあります。
データがトレーニングに使用される前に、個人情報を含むデータを削減するための保護措置を講じています。その一つが「OpenAI Privacy Filter」です。これはテキスト内の個人情報を検出およびマスク化するツールであり、当社の分析によると、同種の他のツールよりも個人情報を除去する効果が高いことが示されています。
私たちは、トレーニングプロセスの複数の段階で、内部バージョンのPrivacy Filterを使用しています。これには、トレーニングに使用する公開データセットや、「モデルをすべての人のために改善する」オプションが有効になっている場合のユーザーとの会話データも含まれます。
ChatGPT におけるプライバシー制御機能
ユーザーは、ChatGPT との会話が将来のモデルのトレーニングに寄与するかを選択できます。そのためには、「設定」から「データコントロール」にアクセスし、「モデルをすべての人のために改善する」オプションを無効にする必要があります。この設定を無効にした場合、新しい会話はチャット履歴に表示され続けますが、ChatGPT のトレーニングには使用されません。
Leclavardage temporaire(opens in a new window) offre une autre option. Pour l'activer, ouvrez un nouveau clavardage et cliquez sur le bouton « Temporaire » dans le coin supérieur droit de la page. Les clavardages temporaires n'apparaissent pas dans l'historique de clavardage, ne créent pas de mémoires et ne sont pas utilisés pour améliorer nos modèles. Les conversations sont conservées pour 30 jours pour des raisons de sécurité et sont ensuite supprimées.
De plus, laMémoire(opens in a new window) rend les réponses de ChatGPT plus utiles en retenant les informations que vous ne voulez pas avoir à répéter, comme les personnes importantes dans votre vie, les projets sur lesquels vous travaillez ou les sujets sur lesquels vous posez habituellement des questions. Cette fonction est entièrement facultative : vous pouvez consulter, modifier ou supprimer les mémoires enregistrées, ou désactiver la mémoire en tout temps. Lorsqu'elle est désactivée, ChatGPT n'enregistre pas et ne fait pas référence à la mémoire de conversations antérieures.
ユーザーは、ChatGPT のデータをエクスポートしたり、アカウントを削除したり、設定からデータ管理を行ったり、プライバシーポータル(新しいウィンドウで開く)を通じてプライバシーに関する要望を提出したりすることができます。ユーザーは、使用または検討されることを望まない機密情報を ChatGPT で共有すべきではありません。
回答におけるプライバシー保護
私たちが真剣に取り組む責任
人々は ChatGPT を、自分たちの生活の敏感な側面に影響する可能性のある質問やタスクを含む、ますます個人的な方法で使用しています。私たちはこの信頼に伴う大きな責任を認識しています。ChatGPT を利用する人々を深く大切に思っており、彼らのプライバシー保護は製品設計の中核に位置づけられています。私たちはまた、プライバシーの保護と重大な危害リスクの管理が両立して行われるべきであると認識しています。私たちはこの責任を真摯に受け止め、プライバシー保護措置を維持しつつ、信頼できる暴力の脅威を検知し対応する能力を強化し続けています。コミュニティの安全とルールの適用に関する私たちのアプローチについてはこちらで詳しく学ぶことができます。モデルがより高性能になるにつれ、私たちは保護措置をさらに改善し、プライバシー制御をより明確にし、人々が自身の情報をどのように利用されるかを具体的に決定できる手段を提供し続けていきます。
原文を表示
*Editor's note for Canada: The French text follows the English text (Le texte français suit le texte anglais).*
ChatGPT is becoming more capable across domains, helping people with complex, real-world work like coding, research, analysis, and multi-step tasks across tools. Those gains in capability are driven by training on a wide variety of data to help our models build broad knowledge of the world and apply it to new tasks.
As OpenAI continues to develop frontier models, we work hard to help ensure that our model training process respects privacy. We’ve developed state of the art technologies to help our models learn useful general patterns rather than private information about individuals, and we have a number of user controls and policies to help keep individuals in control of their data.
This post explains what information may be used in model training, how we reduce the processing of personal information in that process, and how users can control whether their ChatGPT conversations help improve our models.
What information may be used in training
To develop the models that power ChatGPT(opens in a new window), we use a mix of information sources, including publicly available information, information we access through partnerships, and information provided or generated by users, contractors, and researchers. This data helps models build general knowledge and respond more reliably and safely.
For publicly available internet content, we use only information that is freely and openly accessible. For example, if you participate in a publicly available online discussion forum, or post a blog or other public post, we may use that publicly accessible content for model training purposes.
How we reduce personal information in training
Before information is used in training, we apply safeguards designed to reduce personal information in our datasets. One of those safeguards is OpenAI Privacy Filter, which identifies and masks personal information in text. In our evaluations, Privacy Filter is more effective at removing personal information than any other tool of its kind.
We use an internal version of Privacy Filter at multiple stages in the training process, including on public datasets that we use for training, as well as on user conversations if they have “Improve the model for everyone” enabled.
Privacy controls in ChatGPT
Users can choose whether their conversations with ChatGPT help train future models. Users can go to Settings, then Data Controls, and turn off "Improve the model for everyone.(opens in a new window)” Once this setting is off, new conversations still appear in chat history but are not used to train ChatGPT.
Temporary Chat(opens in a new window) offers another option. To start one, open a new chat and click the "Temporary" button in the top-right corner of the page. Temporary Chats do not appear in chat history, do not create memories, and are not used to improve our models. Conversations are retained for 30 days for safety purposes, and are then deleted.
In addition, Memory(opens in a new window) makes ChatGPT’s responses more useful by remembering things you don’t want to keep reminding ChatGPT—like important people in your life, projects you’re working on, or topics you usually ask about. It’s always optional: you can review, edit, or delete saved memories, or turn memory off entirely. When it’s off, ChatGPT won’t save or reference memory from past chats.
Users can also export their ChatGPT data, delete their account, manage data controls from settings, and submit privacy requests through the privacy request portal(opens in a new window). Users should not share sensitive information in ChatGPT that they wouldn't want to be used or reviewed.
Preserving privacy in responses
A responsibility we take seriously
People are using ChatGPT in increasingly personal ways, including for questions and tasks that can touch sensitive parts of their lives. We recognize the deep responsibility that comes with that trust. We care deeply about the people who use ChatGPT, and protecting their privacy is central to how we build. We also recognize that protecting privacy and addressing serious risks of harm have to work together. We take that responsibility seriously, and we continue to strengthen how we detect and respond to credible threats of violence while maintaining privacy safeguards. You can read more about our approach to community safety and enforcement here. As our models become more capable, we will keep improving safeguards, making privacy controls clearer, and giving people practical ways to decide how their information is used.**
*Un guide en langage clair au sujet de l’entraînement des modèles, les mesures de protection de la vie privée et les choix offerts en matière de confidentialité dans ChatGPT.
*
ChatGPT est de plus en plus performant dans divers domaines et aide les gens à accomplir destâches complexes et concrètes comme la programmation, la recherche, l’analyse et des tâches en plusieurs étapes à l’aide de différents outils. Ces gains en capacité sont rendus possibles grâce à l’entraînement sur une grande variété de données qui permettent à nos modèles d’acquérir de vastes connaissances sur le monde et de les appliquer à de nouvelles tâches.
Alors qu’OpenAI poursuit le développement de modèles de pointe, nous travaillons fort pour nous assurer que notre processus d’entraînement des modèles respecte la vie privée. Nous avons développé destechnologies de pointe pour aider nos modèles à apprendre des tendances générales utiles sans apprendre d’information privée sur des individus, et nous avons mis en place plusieurs contrôles et politiques pour aider les personnes à garder le contrôle de leurs données.
Cet article explique quels renseignements peuvent être utilisés pour l’entraînement des modèles, comment nous réduisons le traitement des renseignements personnels dans ce processus, et comment les utilisateurs peuvent choisir s’ils souhaitent que leurs conversations dans ChatGPT servent à améliorer nos modèles.
Quels renseignements peuvent être utilisés pour l’entraînement
Pour développer lesmodèles qui alimentent ChatGPT(opens in a new window), nous utilisons un ensemble de sources d’information, y compris des informations accessibles au public, des informations auxquelles nous accédons grâce à des partenariats, ainsi que des renseignements fournis ou générés par les utilisateurs, prestataires et chercheurs. Ces données permettent aux modèles d’acquérir des connaissances générales et de répondre de manière plus fiable et plus sécuritaire.
Pour le contenu Internet accessible au public, nous utilisons uniquement de l’information librement et ouvertement accessible. Par exemple, si vous participez à un forum de discussion en ligne accessible au public ou si vous publiez un blogue ou un autre article public, nous pouvons utiliser ce contenu public aux fins d’entraînement des modèles.
Avant que les renseignements ne soient utilisés pour l’entraînement, nous appliquons des mesures de protection visant à réduire la présence de renseignements personnels dans nos ensembles de données. L’une de ces mesures est « OpenAI Privacy Filter », un outil qui repère et masque les renseignements personnels dans les textes. Selon nos analyses, Privacy Filter est plus efficace à retirer les renseignements personnels que tout autre outil du genre.
Nous utilisons une version interne du Privacy Filter à plusieurs étapes du processus d’entraînement, y compris sur les ensembles de données publiques que nous utilisons pour l’entraînement, ainsi que sur les conversations des utilisateurs lorsque l’option « Améliorer le modèle pour tout le monde » est activée.
Contrôles de confidentialité dans ChatGPT
Les utilisateurs peuvent choisir si leurs conversations avec ChatGPT contribuent à l’entraînement de futurs modèles. Pour ce faire, ils peuvent accéder aux Paramètres et ensuite aux Contrôles des données etdésactiver l’option « Améliorer le modèle pour tout le monde(opens in a new window) ». Une fois ce paramètre désactivé, les nouvelles conversations demeurent visibles dans l’historique de clavardage, mais ne sont pas utilisées pour entraîner ChatGPT.
Leclavardage temporaire(opens in a new window) offre une autre option. Pour l’activer, ouvrez un nouveau clavardage et cliquez sur le bouton « Temporaire » dans le coin supérieur droit de la page. Les clavardages temporaires n’apparaissent pas dans l’historique de clavardage, ne créent pas de mémoires et ne sont pas utilisés pour améliorer nos modèles. Les conversations sont conservées pour 30 jours pour des raisons de sécurité et sont ensuite supprimées.
De plus, laMémoire(opens in a new window) rend les réponses de ChatGPT plus utiles en retenant les informations que vous ne voulez pas avoir à répéter, comme les personnes importantes dans votre vie, les projets sur lesquels vous travaillez ou les sujets sur lesquels vous posez habituellement des questions. Cette fonction est entièrement facultative : vous pouvez consulter, modifier ou supprimer les mémoires enregistrées, ou désactiver la mémoire en tout temps. Lorsqu’elle est désactivée, ChatGPT n’enregistre pas et ne fait pas référence à la mémoire de conversations antérieures.
Les utilisateurs peuvent également exporter leurs données ChatGPT, supprimer leur compte, gérer les contrôles des données à partir des paramètres et soumettre des demandes relatives à la vie privée par l’entremise duportail de confidentialité(opens in a new window). Les utilisateurs ne devraient pas partager dans ChatGPT des renseignements sensibles qu’ils ne souhaitent pas voir utilisés ou examinés.
Protection de la vie privée dans les réponses
Une responsabilité que nous prenons au sérieux
Les gens utilisent ChatGPT de manières de plus en plus personnelles, notamment pour des questions et des tâches qui peuvent toucher des aspects sensibles de leur vie. Nous reconnaissons la grande responsabilité qui accompagne cette confiance. Nous tenons profondément aux personnes qui utilisent ChatGPT, et la protection de leur vie privée est au cœur de notre façon de concevoir nos produits. **Nous reconnaissons également que la protection de la vie privée et la gestion des risques graves de préjudice doivent aller de pair. Nous prenons cette responsabilité au sérieux et nous continuons de renforcer nos moyens de détecter et de répondre aux menaces de violence crédibles tout en maintenant nos mesures de protection de la vie privée. Vous pouvez en apprendre davantage sur notre approche en matière desécurité communautaire et d’application des règles ici. À mesure que nos modèles deviennent plus performants, nous continuerons d’améliorer nos mesures de protection, de rendre les contrôles de confidentialité plus clairs et de donner aux gens des moyens concrets de décider comment leurs renseignements sont utilisés.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み