GitHub、無料・Pro・Pro+ユーザーのCopilot対話データをAIモデル学習に利用開始
GitHubは4月24日より、FreeおよびProプランのCopilot利用データをデフォルトオプトインでAIモデル学習に使用し、プライバシーや知的財産権に関する懸念がコミュニティから高まっている。
キーポイント
データ収集範囲の拡大
Free、Pro、Pro+プランの利用者から、コードスニペット、入出力履歴、ナビゲーションパターンを含むセッションデータを収集し、プライベートリポジトリの内容も対象となる。
デフォルトオプトインとエクスclusion
4月24日より自動的にデータ提供に同意する設定に変更されるが、BusinessおよびEnterpriseプランは対象外として除外されている。
コミュニティの懸念事項
ダークパターンによる同意強要、機密コードの流出リスク、GDPRなどのデータ保護規制との適合性について開発者から強い反発と懸念が示されている。
影響分析・編集コメントを表示
影響分析
本方針の変更は、大規模言語モデルの学習データ確保におけるユーザー生成コンテンツの価値を公式に認めたものであり、AI開発パイプラインに直接的な影響を与える。一方で、プライベートコードの学習利用とデフォルト同意は開発者の信頼を損ない、各国のデータ保護法との衝突リスクを高めるため、今後はオプトアウトプロセスの透明性が普及の鍵となるだろう。
編集コメント
開発者の機密コードを学習データに組み込む方針は、AIモデルの性能向上とセキュリティリスクの狭間で新たな議論を呼ぶ。企業利用者は除外されているものの、個人開発者はオプトアウト設定の徹底とコード管理ポリシーの見直しを急務とする。
imageGitHubは、4月24日より、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを使用してAIモデルを学習させることを開始します。このデータ収集はデフォルトでオプトイン(同意)となります。収集されるデータには、アクティブなセッションからのコードスニペット、入力、出力、およびナビゲーションパターンが含まれ、プライベートリポジトリ(private repos)のデータも含まれます。BusinessおよびEnterpriseティアは対象外です。コミュニティからは、ダークパターン(不透明なUI設計)、知的財産権の露出リスク、およびGDPR(一般データ保護規則)への準拠に関する懸念が提起されています。
*By Steef-Jan Wiggers*
原文を表示

GitHub will use Copilot interaction data from Free, Pro, and Pro+ users to train AI models starting April 24, opting in by default. Collected data includes code snippets, inputs, outputs, and navigation patterns from active sessions, including private repos. Business and Enterprise tiers are excluded. Community concerns include dark patterns, IP exposure, and GDPR compliance.
*By Steef-Jan Wiggers*
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み