なんてこった:人気の有害性モデルは単なる悪口検出器なのか?
人気の有害性モデルは悪口を過大評価し、肯定的な文脈での悪口使用を誤判定する問題があることが示された。
キーポイント
人気の毒性検出モデルが単なる罵倒語検出器として機能している可能性がある
データセットの品質問題(非ネイティブのラベラーによる文脈無視のラベリング)がモデルの限界を生んでいる
GoogleのPerspective APIが肯定的な罵倒語を含む文を高毒性と誤判定する実証例
言語の複雑さ(罵倒語の肯定的使用)に対応できない現在のAIモデルの課題
AI倫理と実用性のバランスに関する重要な議論を提起
影響分析・編集コメントを表示
影響分析
この記事は、AI毒性検出モデルの根本的な限界を明らかにし、実世界での誤判定問題がユーザー体験や表現の自由に深刻な影響を与える可能性を示しています。特に、データ品質と文化的文脈理解の重要性を強調することで、AI開発におけるより洗練されたアプローチの必要性を業界に提起しています。
編集コメント
AIの「進歩」が表面的なパターンマッチングに留まっている現実を暴く、実用的な視点からの重要な批判記事。業界の自己満足に冷水を浴びせる内容。
人気の毒性検出モデルは、単なる「卑語探知機」なのか?
AIによる有害コンテンツの検出は、文脈を理解する高度な技術が実用化されていると思われがちだ。しかし実際には、強い俗語(プロファニティ)が含まれるだけで、熱狂的なファンのポジティブな投稿までもが「有害」と誤判定されるケースが頻発している。例えば、ブリトニー・スピアーズの新譜を絶賛する「Holy shit. This album is fucking amazing!」といった投稿は、多くのプラットフォームで審査対象やアカウント停止の警告を受けてしまう。
この問題の根本原因は、モデルの学習に用いられるデータセットの質にある。自然言語処理(NLP)のデータセットは、多くの場合、その言語を母語としない作業者によってラベル付けされている。例えば、GoogleのGoEmotionsデータセット(Redditコメントに27の感情タグを付与したデータ)では、「you almost blew my fucking mind there.」といった明らかに怒りではないポジティブな表現が「怒り」と誤タグ付けされている例が確認できる。ラベラーが言語スキルや文化的文脈を十分に理解していない場合、データの精度が低下し、モデルはニュアンスを学べなくなる。
実際に広く利用されている毒性モデルが俗語にどう反応するかを検証するため、Google傘下のJigsawが提供する「Perspective API」をテストした。Jigsawは毒性を「議論から誰かを離脱させそうな、無礼で失礼、または不合理な言語」と定義し、注釈ガイドラインでは「ポジティブな文脈で使われる俗語は毒性とみなすべきではない」と特に明記している。
しかし、先のブリトニー・スピアーズを称える3つの投稿例(「Holy shit...」「fuck yes...」など)をAPIにかけると、いずれも非常に毒性が高いスコア(0.93以上)を示した。一方、これらの投稿から俗語だけを除去すると、スコアは大幅に低下した(例:「Holy cow. This album is amazing」は0.25)。この結果は、モデルが文脈や感情ではなく、表面的な単語の出現に過度に反応していることを強く示唆している。
この問題は深刻な影響をもたらす。最も熱心なファンや支持者こそが、感情を込めて俗語を用いる傾向があり、彼らの熱意ある投稿が誤って非表示や削除の対象となることで、オンラインコミュニティの活気が損なわれる「ひどい偽陽性」が発生している。
結論として、現在広く利用されている多くの毒性検出モデルは、言語の複雑な文脈や意図を十分に理解するには至っておらず、実質的に「単純な俗語探知機」として機能している側面が強い。真に有害なコンテンツを精度高く識別するためには、より質の高い、文化的・言語的文脈を理解したラベル付けによる学習データの構築が不可欠である。
原文を表示
BlogLeaderboardsWorkforceProductsResearchCareersContactLoginMenuCloseBack to BlogHoly $#!t: Are popular toxicity models simply profanity detectors?
Imagine that after months of waiting, your favorite singer – Britney Spears – has released a new album. It lives up to all the hype, and you rush to post on your favorite social media site:
Holy shit. This album is fucking amazing!
Strangely, you get an instant notification that your post is Under Review.
Maybe it’s the word “fucking”? You try again:
Holy shit! This album is amaaazing
No dice. You try one last time:
fuck yes. the OG bad bitch is BACK
This time, you get warned of an account suspension.
It’s tempting to believe that AI has progressed far enough that identifying hateful content is a solved problem. Isn’t this the promise of contextual word embeddings and transformers?
But language is complicated. The strongest profanities are often used in the most positive, life-affirming ways. This is a problem: people’s biggest and most enthusiastic fans – the ones whose content you love seeing and spreading – are getting hidden. Talk about terrible false positives!
In our work, we run into cases like these a lot. Much of the problem stems from poor training and test data: NLP datasets are often created using non-fluent labelers who pattern match on profanity.
For example, here are 10 examples from Google’s GoEmotions dataset (a dataset of Reddit comments, tagged with 27 emotion categories) that were labeled as Anger by the India-based raters that they used.
you almost blew my fucking mind there.
YOU STOLE MY GODDAMN COMMENT! <3
Wow! Good for her! I’m so glad she was able to see through the bullshit!
Best ~~3pt~~ shooter fucking ever. FTFY
I clearly have no fuck I clue what I'm doing hire someone
Clearly, these aren’t actually Anger. But when your labelers don't have the language skills and context to produce accurate data, your models can’t learn about nuance either!
So how well do popular toxicity models handle profanity? We decided to investigate, by evaluating the Perspective API by Google’s Jigsaw unit, which contains a popular, open source toxicity model.
(For background, Jigsaw defines toxicity as “rude, disrespectful, or unreasonable language that is likely to make someone leave a discussion”. Their annotation instructions make a special note about positive profanity: profane language used in a positive way is unlikely to cause people to leave the discussion, and should not be labeled as toxic.)
So here are the 3 examples above:
All three are scored as very likely toxic! (Scores: 0.9323, 0.9289, 0.9813)
Is it due to the profanity? Let's try removing it and seeing what happens:
Holy cow. This album is amazing (Score: 0.2477191)
yes. the OG britney is BACK (Score: 0.07772986)
As expected, once the (positive) profanity is removed, Perspective no longer scores these so high.
A benchmark for evaluating toxicity
Of course, three examples live in the realm of anecdote.
For a larger, real-world benchmark, our labeling team of native English speakers gathered 500 examples of non-toxic profanity posted by actual social media users, as well as 500 examples of toxic profanity.
How did the Perspective API fare on these?
In fact, Perspective returned a toxicity score above 0.9 (the default threshold suggestion) for 61% of the real world, non-toxic profanity examples (and 87% of the toxic profanity examples).
If you’d like to benchmark your own toxicity or hateful content model, we released the dataset on our Github.
We love what the Jigsaw team is building, so this isn’t to suggest that Perspective doesn’t have great applications. Especially for its suggested usage — as a first-pass filter, leaving final judgments to human decision makers — marking all profanity as toxic can make perfect sense. Perhaps you don’t want your kids to see curse words, regardless of the sentiment behind them.
The larger problem is that your models may be misbehaving in the real world, on the examples you care about the most – but your labels and labelers may not be accurate enough for you to tell. Think hard about your data!
After all, it’s Britney’s best track for a reason.
Follow us onLinkedinXEnterpriseBench: CoreCraft – Measuring AI Agents in Chaotic, Enterprise RL EnvironmentsHemingway-bench Leaderboard: Because Good Writing Isn't a Checklist of VibesBuilding AdvancedIF: Evolving Instruction Following Beyond IFEval and “Avoid the Letter C”LMArena is a cancer on AIRL Environments and the Hierarchy of Agentic CapabilitiesHow do frontier models perform on real-world finance problems?A Product Take on Sonnet 4.5Is Sonnet 4.5 the best coding model in the world?The Human/AI Frontier: A Conversation with Bogdan GrechukSWE-Bench Failures: When Coding Agents Spiral Into 693 Lines of HallucinationsBenchmarks are brokenUnsexy AI Failures: The PDF That Broke ChatGPTBringing light to the GPT-4o vs. GPT-5 personality controversyDALL·E 3 and
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み