ProText:長文テキストにおける(誤った)性別表現を測定するためのベンチマークデータセット
Apple Machine Learningは、長文テキストにおけるジェンダー表現と誤ったジェンダー表現を測定するためのベンチマークデータセット「ProText」を導入し、要約や書き換えなどのテキスト変換における大規模言語モデルの(誤)ジェンダー表現を調査することを目的としている。
キーポイント
ProTextデータセットの導入
Apple Machine Learningが、長文英語テキストにおけるジェンダー表現と誤ったジェンダー表現(ミスジェンダリング)を測定するための新しいベンチマークデータセット「ProText」を発表した。
データセットの3次元構造
ProTextは、テーマ名詞(名前、職業、肩書、親族用語)、テーマカテゴリー(ステレオタイプ的に男性、女性、ジェンダーニュートラル/非ジェンダー)、代名詞カテゴリー(男性形、女性形、ジェンダーニュートラル、なし)の3つの次元にまたがっている。
調査目的と対象
このデータセットは、最先端の大規模言語モデル(LLM)を用いた要約や書き換えなどのテキスト変換において、(誤)ジェンダー表現を調査するために設計されており、従来の代名詞解決ベンチマークを超える範囲を対象としている。
影響分析・編集コメントを表示
影響分析
このデータセットは、AIの公平性と倫理、特にLLMの出力におけるジェンダーバイアス評価という重要な研究分野に貢献する。実用的なベンチマークツールとして、より包括的で文脈を考慮したジェンダー表現の分析を可能にし、AI開発における責任ある開発を促進する可能性がある。
編集コメント
AIの公平性研究における実用的なツール提供という点で意義深いが、現時点では研究段階の発表であり、具体的な応用成果や業界への直接的な影響はまだ限定的と言える。
私たちは、様式が多様な長文英語テキストにおける性別の付与と誤った性別の付与を測定するためのデータセット「ProText」を紹介します。ProText は3つの次元にわたります:テーマ名詞(名前、職業、肩書き、親族呼称)、テーマカテゴリ(典型的に男性向け、典型的に女性向け、性別中立/無性別)、および代名詞カテゴリ(男性形、女性形、性別中立、なし)。このデータセットは、最先端の大規模言語モデルを用いた要約や書き換えといったテキスト変換における(誤った)性別の付与を調査するために設計されており、従来の代名詞解決ベンチマークを超え、さらに…
原文を表示
We introduce ProText, a dataset for measuring gendering and misgendering in stylistically diverse long-form English texts. ProText spans three dimensions: Theme nouns (names, occupations, titles, kinship terms), Theme category (stereotypically male, stereotypically female, gender-neutral/non-gendered), and Pronoun category (masculine, feminine, gender-neutral, none). The dataset is designed to probe (mis)gendering in text transformations such as summarization and rewrites using state-of-the-art Large Language Models, extending beyond traditional pronoun resolution benchmarks and beyond the…
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み