AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
OpenAI News·2026年4月22日 09:00·約10分で読める

「OpenAIプライバシーフィルター」の公開

#PII保護#オープンウェイトモデル#テキスト処理#OpenAI#コンプライアンス対応
TL;DR

OpenAIがPII検出・削除に特化したオープンウェイトモデル「Privacy Filter」を公開し、テキスト内の個人情報保護におけるSOTA精度を実現した。

AI深層分析2026年4月23日 01:19
3
注目/ 5段階
深度40%
2
関連度30%
4
実用性20%
3
革新性10%
3

キーポイント

1

オープンウェイトモデルの提供

商用利用やカスタムファインチューニングが可能なオープンソース形式で公開され、企業は独自のデータセットで検証・調整が可能。

2

高精度なPII検出・赤字化機能

名前、住所、電話番号など個人情報を高精度に識別し、安全に削除(redacting)する専用機能を実現。

3

業界標準精度の達成

既存のプライバシー保護ツールを上回るSOTA(State-of-the-Art)精度を謳い、実務での信頼性を確保。

影響分析・編集コメントを表示

影響分析

OpenAIのオープンウェイト戦略は、プライバシー保護という実務課題に直接応える形で進化している。企業は独自のモデルを構築するコストを抑えつつ、GDPRなどの規制対応を迅速化できるため、AI実装のハードルが下がる。同時に、オープンソースコミュニティによる精度検証と改良が期待される。

編集コメント

プレスリリース特有の情報不足は否めないが、実務で即座に活用できるオープンウェイトモデルの提供という姿勢は評価できる。今後はベンチマーク結果やAPI連携の詳細が公開されれば、採用ハードルはさらに下がるだろう。

今日は、テキスト内の個人識別情報(PII: Personally Identifiable Information)を検出し、伏字処理するためのオープンウェイトモデル(open-weight model)「OpenAI Privacy Filter」をリリースいたします。本リリースは、強力なプライバシーおよびセキュリティ保護を初期段階から容易に実装できるツールやモデルを提供することで、開発者が安全にAIを活用した構築を行える実践的なインフラを整備し、より堅牢なソフトウェアエコシステムを支えるという当社の広範な取り組みの一環です。

Privacy Filterは、最先端の個人データ検出能力を備えた小規模モデルです。高スループットのプライバシーワークフロー向けに設計されており、非構造化テキスト(unstructured text)内のPIIを文脈を考慮して検出できます。ローカルで実行可能であり、つまりPIIをマシンから外部に送信することなく伏字処理や削除が可能です。長い入力を効率的に処理し、高速な単一パスで伏字処理の判断を行います。

OpenAIでは、プライバシー保護を重視した自社のワークフローにおいて、Privacy Filterのファインチューニング版(fine-tuned version)を使用しています。最新のAI能力があれば市場既存のものを超えたプライバシー基準を打ち立てられると考え、Privacy Filterを開発しました。本日リリースするバージョンは、評価過程で特定した注釈の問題を補正した場合、PII-Masking-300kベンチマークにおいて最先端の性能を達成しています。

今回のリリースにより、開発者は自身の環境でPrivacy Filterを実行し、独自のユースケースに合わせてファインチューニングして、トレーニング、インデックス作成、ログ記録、レビューの各パイプラインに強力なプライバシー保護を組み込むことができます。

現代のAIシステムにおけるプライバシー保護は、パターンマッチングだけでは不十分です。従来のPII検出ツールは、電話番号やメールアドレスなどのフォーマットに対して決定論的なルールに依存することが多いです。特定のケースでは機能しますが、より微妙な個人情報を逃すことが多く、文脈への対応が苦手です。

Privacy Filterは、より洗練された性能を実現するために、高度な言語および文脈認識を備えて構築されています。強力な言語理解とプライバシー特化のラベリングシステムを組み合わせることで、文脈によって適切な判断が異なるケースを含む、非構造化テキスト内のより広範なPIIを検出できます。公開情報として保持すべき情報と、個人に関連するため伏字処理や削除が必要である情報をより明確に区別できます。

その結果、最先端レベルのプライバシーフィルタリング性能を提供するのに十分な強さを備えながら、同時にローカル実行が可能な小規模なモデルが誕生しました。つまり、フィルタリング前のデータをサーバーに送信して匿名化する必要がなく、デバイス上に保持できるため、漏洩リスクを低減できます。

Privacy Filterは、スパンデコーディング(span decoding)を備えた双方向トークン分類モデル(bidirectional token-classification model)です。自己回帰型事前学習済みチェックポイント(autoregressive pretrained checkpoint)から始まり、固定されたプライバシーラベルの分類体系に基づいてトークン分類器に適応させます。テキストをトークン単位で生成するのではなく、入力シーケンスを一括でラベル付けし、その後制約付きビタビアルゴリズム(constrained Viterbi procedure)を用いて一貫したスパンをデコードします。

このアーキテクチャは、本番環境での使用においてPrivacy Filterに以下の有用な特性をもたらします:

高速かつ効率的:すべてのトークンを単一順伝播でラベル付け。

文脈認識:言語事前知識により、周囲の文脈に基づいてPIIスパンを検出可能。

長文コンテキスト:リリース版モデルは最大128,000トークンのコンテキストをサポート。

設定可能:開発者はワークフローに応じてリコールと精度のトレードオフを調整する動作点をチューニング可能。

リリースされたモデルは、総パラメータ数が15億、アクティブパラメータ数が5,000万です。

Privacy Filterは以下の8つのカテゴリにわたるスパンを予測します:

private_person

private_address

private_email

private_phone

private_url

private_date

account_number

secret

account_numberカテゴリは、クレジットカード番号や銀行口座番号などの銀行情報を包含する多様な口座番号を伏字処理するのに役立ちます。一方、secretカテゴリはパスワードやAPIキーなどの機密情報を伏字処理します。

これらのラベルはBIOESスパンタグ(BIOES span tags)を用いてデコードされ、よりクリーンで一貫性のある伏字処理の境界を生成するのに役立ちます。

Privacy Filterの開発は複数の段階を経て行われました。

まず、モデルが検出すべきスパンのタイプを定義するプライバシー分類体系(privacy taxonomy)を構築しました。これには、個人識別子、連絡先情報、住所、非公開日付、クレジットカードや銀行情報などの多様な口座番号、およびAPIキーやパスワードなどの機密情報が含まれます。

次に、事前学習済み言語モデルを双方向トークン分類器に変換するため、言語モデリングヘッドをトークン分類ヘッドに置き換え、教師あり分類の目的関数(supervised classification objective)でポストトレーニングを行いました。

最後に、現実的なテキストと困難なプライバシーパターンを捉えるように設計された、公開データと合成データ(synthetic data)の混合セットで学習を行いました。ラベルが不完全な公開データの部分では、カバレッジを向上させるためにモデル支援アノテーションとレビューを使用しました。また、フォーマット、コンテキスト、プライバシーのサブタイプ間の多様性を高めるため、合成例を生成しました。

推論時、モデルのトークンレベルの予測は制約付きシーケンスデコーディング(constrained sequence decoding)を用いて一貫したスパンにデコードされます。このアプローチは、事前学習済みモデルの広範な言語理解を保持しつつ、プライバシー検出に特化させます。

標準ベンチマークに加え、より困難で文脈に敏感なケースをテストするために設計された追加の合成データおよびチャット形式の評価を用いて、Privacy Filterを検証しました。

PII-Masking-300kベンチマークにおいて、Privacy FilterはF1スコア(F1 score)96%(精度(precision)94.04%、再現率(recall)98.04%)を達成しました。レビュー過程で特定されたデータセットの注釈問題を補正した修正版ベンチマークでは、F1スコアは97.43%(精度96.79%、再現率98.08%)です。

また、モデルが効率的に適応可能であることも確認しました。少量のデータでのファインチューニングにより、ドメイン固有タスクにおける精度が迅速に向上し、F1スコアは54%から96%に上昇し、評価したドメイン適応ベンチマーク(domain-adaption benchmark)において飽和状態に近い性能を示しました。

ベンチマーク性能に加え、Privacy Filterはノイズの多い実世界テキストにおける実践的なプライバシーフィルタリングを目的として設計されています。これには、長いドキュメント、曖昧な参照、混合フォーマットの文字列、ソフトウェア関連の機密情報が含まれます。モデルカードでも、コードベースにおける機密情報検出のターゲット評価や、多言語、敵対的、文脈依存の例にわたるストレステストの結果が報告されています。

Privacy Filterは匿名化ツール(anonymization tool)でも、コンプライアンス認証(compliance certification)でもなく、重大な意思決定が求められる場面におけるポリシーレビューの代替にもなりません。より広範なプライバシーバイデザインシステム(privacy-by-design system)の構成要素の一つです。

その動作は、学習に用いられたラベル分類体系と判断境界を反映しています。異なる組織では検出や伏字処理のポリシーが異なる場合があり、それらのポリシーにはドメイン内評価やさらなるファインチューニングが必要になることがあります。また、言語、文字体系、命名規則、および学習分布と異なるドメインにおいて性能が変動する可能性があります。

他のモデルと同様、Privacy Filterも誤りを犯すことがあります。珍しい識別子や曖昧な個人情報を示す参照を見逃す場合があり、特に短いシーケンスでは文脈が限られるため、エンティティの伏字処理を過剰に行ったり不十分に行ったりする可能性があります。法務、医療、金融といった高感度ワークフローでは、人間のレビューやドメイン固有の評価・ファインチューニングが依然として重要です。

当エコシステム全体でより強力なプライバシー保護を支えるため、OpenAI Privacy Filterをリリースいたします。

本モデルは本日、Hugging FaceおよびGithub上でApache 2.0ライセンスの下で公開されています。実験、カスタマイズ、商用デプロイを目的としており、異なるデータ分布やプライバシーポリシーに合わせてファインチューニング可能です。

モデルに加え、モデルアーキテクチャ、ラベル分類体系、デコーディング制御、想定ユースケース、評価設定、既知の制限を網羅したドキュメントも公開しており、チームがモデルの得意とする領域と慎重に使用するべき箇所を把握できるようになっています。

AIシステムにおけるプライバシー保護は、研究、製品設計、評価、デプロイの各段階を通じて継続的な取り組みです。

Privacy Filterは、実世界のAIシステムにとって重要な狭義のタスクにおいて最先端能力を備えた、小規模で効率的なモデルという重要な方向性を示すものです。プライバシー保護インフラが調査、実行、適応、改善をより容易にするべきだと考えているため、本モデルをリリースいたします。

私たちの目標は、モデルが個人ではなく世界について学ぶことです。Privacy Filterはその実現を支援します。

本研究およびプライバシーコミュニティからのフィードバックを受け、モデル性能をさらに反復・改善するため、Privacy Filterのプレビュー版をリリースいたします。

原文を表示

Today we’re releasing OpenAI Privacy Filter, an open-weight model for detecting and redacting personally identifiable information (PII) in text. This release is part of our broader effort to support a more resilient software ecosystem by providing developers practical infrastructure for building with AI safely, including tools⁠ and models⁠ that make strong privacy and security protections easier to implement from the start.Privacy Filter is a small model with frontier personal data detection capability. It is designed for high-throughput privacy workflows, and is able to perform context-aware detection of PII in unstructured text. It can run locally, which means that PII can be masked or redacted without leaving your machine. It processes long inputs efficiently, making redaction decisions in a quick, single pass.At OpenAI, we use a fine-tuned version of Privacy Filter in our own privacy-preserving workflows. We developed Privacy Filter because we believe that with the latest AI capabilities, we could raise the standard for privacy beyond what was already on the market. The version of Privacy Filter we are releasing today achieves state-of-the-art performance on the PII-Masking-300k benchmark, when corrected for annotation issues we identified during evaluation.With this release, developers can run Privacy Filter in their own environments, fine tune it to their own use cases, and build stronger privacy protections into training, indexing, logging, and review pipelines.Privacy protection in modern AI systems depends on more than pattern matching. Traditional PII detection tools often rely on deterministic rules for formats like phone numbers and email addresses. They can work well for narrow cases, but they often miss more subtle personal information and struggle with context.Privacy Filter is built with deeper language and context awareness for more nuanced performance. By combining strong language understanding with a privacy-specific labeling system, it can detect a wider range of PII in unstructured text, including cases where the right decision depends on context. It can better distinguish between information that should be preserved because it is public, and information that should be masked or redacted because it relates to a private individual.The result is a model that is strong enough to deliver frontier-level privacy filtering performance. At the same time, the model is small enough to be run locally–meaning data that has yet to be filtered can remain on device, with less risk of exposure, rather than needing to be sent to a server for de-identification. Privacy Filter is a bidirectional token-classification model with span decoding. It begins from an autoregressive pretrained checkpoint and is then adapted into a token classifier over a fixed taxonomy of privacy labels. Instead of generating text token by token, it labels an input sequence in one pass and then decodes coherent spans with a constrained Viterbi procedure.This architecture gives Privacy Filter a few useful properties for production use:Fast and efficient: all tokens are labeled in a single forward pass.Context aware: the language prior enables PII spans to be detected based on surrounding context.Long-context: the released model supports up to 128,000 tokens of context.Configurable: developers can tune operating points to trade off recall and precision depending on their workflow.The released model has 1.5B total parameters with 50M active parameters.Privacy Filter predicts spans across eight categories:private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecretThe account_number category helps mask a wide variety of account numbers, including banking info like credit card numbers and bank account numbers, while secret helps mask things like passwords and API keys.These labels are decoded with BIOES span tags, which helps produce cleaner and more coherent masking boundaries.We developed Privacy Filter in several stages.First, we built a privacy taxonomy that defines the types of spans the model should detect. This includes personal identifiers, contact details, addresses, private dates, many different kinds of account numbers such as credit and banking information, and secrets such as API keys and passwords.Second, we converted a pretrained language model into a bidirectional token classifier by replacing the language modeling head with a token-classification head and post-training it with a supervised classification objective. Third, we trained on a mixture of publicly available and synthetic data designed to capture both realistic text and difficult privacy patterns. In parts of the public data where labels were incomplete, we used model-assisted annotation and review to improve coverage. We also generated synthetic examples to increase diversity across formats, contexts, and privacy subtypes.At inference time, the model's token-level predictions are decoded into coherent spans using constrained sequence decoding. This approach preserves the broad language understanding of the pretrained model while specializing it for privacy detection.We evaluated Privacy Filter on standard benchmarks and on additional synthetic and chat-style evaluations designed to test harder, more context-sensitive cases.On the PII-Masking-300k⁠(opens in a new window) benchmark, Privacy Filter achieves an F1 score of 96% (94.04% precision and 98.04% recall). On a corrected version of the benchmark that accounts for dataset annotation issues identified during review, the F1 score is 97.43% (96.79% precision and 98.08% recall).We also found that the model can be adapted efficiently. Fine-tuning on even a small amount of data quickly improves accuracy on domain-specific tasks, increasing F1 score from 54% to 96% and approaches saturation on the domain-adaption benchmark we evaluated.Beyond benchmark performance, Privacy Filter is designed for practical privacy filtering in noisy, real-world text. That includes long documents, ambiguous references, mixed-format strings, and software-related secrets. The model card ⁠(opens in a new window)also reports targeted evaluation on secret detection in codebases and stress tests across multilingual, adversarial, and context-dependent examples.Privacy Filter is not an anonymization tool, a compliance certification, or a substitute for policy review in high-stakes settings. It is one component in a broader privacy-by-design system.Its behavior reflects the label taxonomy and decision boundaries it was trained on. Different organizations may want different detection or masking policies, and those policies may require in-domain evaluation or further fine-tuning. Performance may also vary across languages, scripts, naming conventions, and domains that differ from the training distribution.Like all models, Privacy Filter can make mistakes. It can miss uncommon identifiers or ambiguous private references, and it can over- or under-redact entities when context is limited, especially in short sequences. In high-sensitivity domains such as legal, medical, and financial workflows, human review and domain-specific evaluation and fine-tuning remain important.We are releasing OpenAI Privacy Filter to support stronger privacy protections across the ecosystem.The model is available today under the Apache 2.0 license on Hugging Face⁠(opens in a new window) and Github⁠(opens in a new window). It is intended for experimentation, customization, and commercial deployment, and it can be fine-tuned for different data distributions and privacy policies.Alongside the model, we are sharing documentation covering the model architecture, label taxonomy, decoding controls, intended use cases, evaluation setup, and known limitations, so teams can understand both what the model does well and where it should be used carefully.Privacy protection for AI systems is an ongoing effort across research, product design, evaluation, and deployment.Privacy Filter reflects one direction we believe is important: small, efficient models with frontier capability in narrowly defined tasks that matter for real-world AI systems. We are releasing it because we think privacy-preserving infrastructure should be easier to inspect, run, adapt, and improve.Our goal is for models to learn about the world, not about private individuals. Privacy Filter helps make that possible.We’re releasing this preview of Privacy Filter to receive feedback from the research and privacy community and iterate further on model performance.

この記事をシェア

関連記事

The Decoder★42026年4月23日 22:53

OpenAI、テキストから個人情報を除去するオープンソースモデルを公開

OpenAIは、テキスト内の個人データを検出して削除するオープンソースモデル「Privacy Filter」を公開した。

The Decoder★32026年4月22日 00:58

OpenAI、完全にリアルなAI生成スクリーンショットで「GPT-Image 2」を予告

OpenAIは新画像生成モデル「GPT-Image 2」を公開し、実写と見分けがつかない高精度なテスト画像を示した。

Stability AI★42026年5月20日 23:59

芸術的実験に対応したオープンウェイトモデル「Stable Audio 3.0」の発表

Stability AI が、完全ライセンス済みデータで訓練された音楽生成モデルファミリー「Stable Audio 3.0」を公開しました。最大6分間の可変長生成や携帯端末でのフル曲作曲が可能となり、出力物の商用利用も認められています。

ニュース一覧に戻る元記事を読む