研究:AIチャットボットは脆弱なユーザーに精度の低い情報を提供
MITの研究により、GPT-4やClaudeなどの最先端LLMが、英語能力の低い層や低学歴者、米国以外の出身者に対して精度が低下し、回答拒否率が高まるなど、脆弱なユーザー層に不利益をもたらすバイアスが確認された。
キーポイント
脆弱なユーザー層への性能劣化
英語 proficiency が低い、学歴が低い、または米国以外の出身者といった属性を持つユーザーに対して、主要LLM(GPT-4, Claude 3 Opus, Llama 3)は回答の正確性と真実性が低下する傾向を示した。
複合的バイアスの顕在化
低学歴かつ非ネイティブスピーカーという複合的な属性を持つユーザーにおいて、回答品質の低下が最も顕著であり、単一の要因を超えた相互作用によるバイアスが確認された。
回答拒否と高慢な応答
脆弱な属性を持つユーザーに対して、モデルは質問への回答を拒否する割合が高まるだけでなく、場合によってはcondescending(上から目線)またはpatronizing(おだて口調)な言語を使用する問題も指摘された。
情報アクセスの民主化というビジョンへの懸念
LLMが世界中の情報アクセスを民主化する可能性は高いものの、現在のモデルのバイアスや有害な傾向がすべてのユーザーに対して安全に緩和されていない場合、このビジョンは実現できないという警告が示された。
国出身による性能の格差
同等の教育背景を持つユーザーでも、Claude 3 Opusはイラン出身ユーザーに対して大幅に精度が低下し、特に非英語圏かつ教育レベルの低いユーザーで誤情報が拡散するリスクが高まる。
回答拒否と差別的な応答
教育レベルの低いユーザーへの回答拒否率が上昇し、その際モデルは軽蔑的または嘲笑的な言葉遣い(場合によっては壊れた英語の模倣)を用いる傾向があり、特定のトピックについても他ユーザーには回答しながら特定ユーザーには情報を提供しない。
人間的社会認知バイアスの反映
この現象は、非英語話者を実際の能力に関わらず知能や有能さが低いと見なす人間の社会的認知バイアスと一致しており、大規模展開に伴うシステム内の隠れた不公平な危害への継続的な評価が重要である。
影響分析・編集コメントを表示
影響分析
この研究は、LLMが持つ潜在的なバイアスが単なる統計的なノイズではなく、社会経済的・地理的要因と連動して特定のユーザー層に構造的な不利益をもたらすことを示唆しており、AI開発における公平性の確保が技術的課題として喫緊の事項であることを浮き彫りにしました。業界全体としては、モデルの評価基準に多様なユーザー属性を含めることや、脆弱な層に対する回答品質の改善を目的としたファインチューニングやガードレールの強化が求められるようになります。
編集コメント
LLMの「精度」がユーザーのプロファイルによって変動するという事実は、実務環境でのAI導入において重大なリスク要因となります。特に教育や医療支援などの分野では、このバイアスを排除するための厳格なテストスイートの構築と継続的な監視が必須となります。
研究:AIチャットボットは脆弱なユーザーに精度の低い情報を提供する
プレスお問い合わせ プレス連絡先:
閉じる
キャプション:エリノア・プール=ダヤンが、シンガポールで開催された第40回AAAI人工知能国際会議で自身の研究を発表している様子。クレジット:写真:クレイトン・コーン 前の画像 次の画像
大規模言語モデル(LLM)は、ユーザーの背景や所在地に関わらず、使いやすいインターフェースで知識を提供し、世界中の情報アクセスを民主化するツールとして称賛されてきた。しかし、MIT建設的コミュニケーションセンター(CCC)による新たな研究は、これらの人工知能システムが、最も恩恵を受ける可能性のあるユーザーに対して、実際にはパフォーマンスが低下する可能性があることを示唆している。
MITメディアラボに拠点を置くCCCの研究者らが実施した研究によると、最先端のAIチャットボット(OpenAIのGPT-4、AnthropicのClaude 3 Opus、MetaのLlama 3を含む)は、英語力が低い、正規の教育をあまり受けていない、または米国外出身のユーザーに対して、精度や真実性が低い回答を提供することがあることがわかった。また、これらのモデルは、こうしたユーザーからの質問に対して、より高い頻度で回答を拒否し、場合によっては見下したような、または恩着せがましい言葉遣いで応答することもあった。
「私たちは、LLMが世界中の不公平な情報アクセシビリティ問題の解決に役立つ可能性に動機づけられました」と、筆頭著者でMITスローン経営大学院の技術アソシエイト(2025年修士課程修了予定)であり、CCCのアフィリエイトおよびメディアアーツ&サイエンスの修士課程学生としてこの研究を主導したエリノア・プール=ダヤンは述べる。「しかし、言語、国籍、その他の人口統計学的属性に関わらず、すべてのユーザーに対してモデルのバイアスや有害な傾向が安全に緩和されなければ、そのビジョンは実現できません。」
この研究を記述した論文「LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users」は、1月に開催されたAAAI人工知能国際会議で発表された。
複数の次元にわたる体系的な低パフォーマンス
この研究のために、チームは3つのLLMが2つのデータセット(TruthfulQAとSciQ)からの質問にどのように応答するかをテストした。TruthfulQAはモデルの真実性(現実世界に関する一般的な誤解や文字通りの真実に依存して)を測定するように設計されており、SciQは事実の正確性をテストする科学試験問題を含んでいる。研究者らは各質問の前に短いユーザーの経歴を付け加え、3つの特性(教育レベル、英語力、出身国)を変化させた。
3つのモデルすべておよび両方のデータセットにおいて、研究者らは、正規の教育をあまり受けていない、または英語を母語としないと記述されたユーザーからの質問に対して、精度が著しく低下することを発見した。この影響は、これらのカテゴリーが交差するユーザー、すなわち正規の教育をあまり受けておらず、かつ英語を母語としないユーザーに対して最も顕著であり、回答の質が最大の低下を見せた。
研究ではまた、出身国がモデルのパフォーマンスにどのように影響するかを検証した。米国、イラン、中国出身の同等の教育背景を持つユーザーをテストした結果、特にClaude 3 Opusは、両方のデータセットにおいてイラン出身のユーザーに対して著しくパフォーマンスが悪いことがわかった。
「英語を母語とせず、かつ教育レベルが低いユーザーに対して、精度の最大の低下が見られます」と、CCCのリサーチサイエンティストで論文の共著者であるジャド・カバラは言う。「これらの結果は、これらのユーザー特性に関連するモデルの振る舞いの悪影響が懸念すべき方法で複合していることを示しており、そのようなモデルが大規模に展開されると、有害な振る舞いや誤情報を、それを識別する能力が最も低い人々に下流へと拡散させるリスクがあることを示唆しています。」
回答拒否と見下した言葉遣い
おそらく最も印象的だったのは、モデルが質問に全く答えようとしない頻度の違いだった。例えば、Claude 3 Opusは、教育レベルが低く、英語を母語としないユーザーからの質問のほぼ11%に対して回答を拒否したのに対し、ユーザー経歴がない対照条件ではわずか3.6%だった。
研究者らがこれらの拒否を手動で分析したところ、Claudeは、教育レベルの低いユーザーに対して、見下した、恩着せがましい、または嘲笑するような言葉遣いで応答する割合が43.7%にのぼったのに対し、教育レベルの高いユーザーでは1%未満であることがわかった。場合によっては、モデルはブロークンな英語を真似たり、誇張された方言を採用したりしていた。
また、このモデルは、イランやロシア出身の教育レベルの低いユーザーに対して、原子力、解剖学、歴史的出来事など特定のトピックに関する情報提供を拒否したが、他のユーザーには同じ質問に正しく答えていた。
「これは、モデルが明らかに正しい答えを知っていて他のユーザーには提供しているにもかかわらず、特定のユーザーに誤って情報を提供するのを避けるために、情報を保留するようモデルにインセンティブを与える可能性があることを示す別の指標です」とカバラは言う。
人間のバイアスとの類似点
この発見は、人間の社会認知的バイアスの文書化されたパターンを反映している。社会科学の研究によると、英語を母語とする話者は、実際の専門知識に関わらず、非ネイティブスピーカーを教育レベル、知性、能力が低いと認識することが多い。同様の偏った認識は、非ネイティブの英語を話す生徒を評価する教師の間でも文書化されている。
「大規模言語モデルの価値は、個人によるその並外れた採用と、この技術に流れ込む巨額の投資によって明らかです」と、メディアアーツ&サイエンス教授、CCCディレクター、論文の共著者であるデブ・ロイは述べる。「この研究は、これらのシステムにこっそりと入り込み、私たちの誰も完全に気づかないうちにあるグループに不当な害を及ぼす体系的なバイアスを継続的に評価することがいかに重要であるかを思い起こさせてくれます。」
この影響は、ChatGPTのMemory(会話をまたいでユーザー情報を追跡する)のようなパーソナライゼーション機能がますます一般的になっていることを考えると、特に懸念される。そのような機能は、すでに疎外されているグループを差別的に扱うリスクがある。
「LLMは、より公平な情報アクセスを促進し、パーソナライズド学習を革命化するツールとして市場に出されてきました」とプール=ダヤンは言う。「しかし、私たちの発見は、LLMが特定のユーザーに対して体系的に誤情報を提供したり、質問に答えようとしなかったりすることで、実際には既存の不平等を悪化させる可能性があることを示唆しています。これらのツールに最も依存する可能性のある人々が、標準以下の、誤った、あるいは有害な情報を受け取る可能性があります。」
このニュース記事を共有する:
論文:「LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users」 関連リンク
エリノア・プール=ダヤン
建設的コミュニケーションセンター
建築・計画スクール
MITスローン経営大学院
人工知能
機械学習
建築・計画スクール
MITスローン経営大学院
関連記事
研究:一部の言語報酬モデルは政治的バイアスを示す

原文を表示
Press Inquiries Press Contact:
Close
Caption: Elinor Poole-Dayan presents her work during the 40th Annual AAAI Conference on Artificial Intelligence in Singapore. Credits: Photo: Clayton Cohn Previous image Next image
Large language models (LLMs) have been championed as tools that could democratize access to information worldwide, offering knowledge in a user-friendly interface regardless of a person’s background or location. However, new research from MIT’s Center for Constructive Communication (CCC) suggests these artificial intelligence systems may actually perform worse for the very users who could most benefit from them.
A study conducted by researchers at CCC, which is based at the MIT Media Lab, found that state-of-the-art AI chatbots — including OpenAI’s GPT-4, Anthropic’s Claude 3 Opus, and Meta’s Llama 3 — sometimes provide less-accurate and less-truthful responses to users who have lower English proficiency, less formal education, or who originate from outside the United States. The models also refuse to answer questions at higher rates for these users, and in some cases, respond with condescending or patronizing language.
“We were motivated by the prospect of LLMs helping to address inequitable information accessibility worldwide,” says lead author Elinor Poole-Dayan SM ’25, a technical associate in the MIT Sloan School of Management who led the research as a CCC affiliate and master’s student in media arts and sciences. “But that vision cannot become a reality without ensuring that model biases and harmful tendencies are safely mitigated for all users, regardless of language, nationality, or other demographics.”
A paper describing the work, “LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users,” was presented at the AAAI Conference on Artificial Intelligence in January.
Systematic underperformance across multiple dimensions
For this research, the team tested how the three LLMs responded to questions from two datasets: TruthfulQA and SciQ. TruthfulQA is designed to measure a model’s truthfulness (by relying on common misconceptions and literal truths about the real world), while SciQ contains science exam questions testing factual accuracy. The researchers prepended short user biographies to each question, varying three traits: education level, English proficiency, and country of origin.
Across all three models and both datasets, the researchers found significant drops in accuracy when questions came from users described as having less formal education or being non-native English speakers. The effects were most pronounced for users at the intersection of these categories: those with less formal education who were also non-native English speakers saw the largest declines in response quality.
The research also examined how country of origin affected model performance. Testing users from the United States, Iran, and China with equivalent educational backgrounds, the researchers found that Claude 3 Opus in particular performed significantly worse for users from Iran on both datasets.
“We see the largest drop in accuracy for the user who is both a non-native English speaker and less educated,” says Jad Kabbara, a research scientist at CCC and a co-author on the paper. “These results show that the negative effects of model behavior with respect to these user traits compound in concerning ways, thus suggesting that such models deployed at scale risk spreading harmful behavior or misinformation downstream to those who are least able to identify it.”
Refusals and condescending language
Perhaps most striking were the differences in how often the models refused to answer questions altogether. For example, Claude 3 Opus refused to answer nearly 11 percent of questions for less educated, non-native English-speaking users — compared to just 3.6 percent for the control condition with no user biography.
When the researchers manually analyzed these refusals, they found that Claude responded with condescending, patronizing, or mocking language 43.7 percent of the time for less-educated users, compared to less than 1 percent for highly educated users. In some cases, the model mimicked broken English or adopted an exaggerated dialect.
The model also refused to provide information on certain topics specifically for less-educated users from Iran or Russia, including questions about nuclear power, anatomy, and historical events — even though it answered the same questions correctly for other users.
“This is another indicator suggesting that the alignment process might incentivize models to withhold information from certain users to avoid potentially misinforming them, although the model clearly knows the correct answer and provides it to other users,” says Kabbara.
Echoes of human bias
The findings mirror documented patterns of human sociocognitive bias. Research in the social sciences has shown that native English speakers often perceive non-native speakers as less educated, intelligent, and competent, regardless of their actual expertise. Similar biased perceptions have been documented among teachers evaluating non-native English-speaking students.
“The value of large language models is evident in their extraordinary uptake by individuals and the massive investment flowing into the technology,” says Deb Roy, professor of media arts and sciences, CCC director, and a co-author on the paper. “This study is a reminder of how important it is to continually assess systematic biases that can quietly slip into these systems, creating unfair harms for certain groups without any of us being fully aware.”
The implications are particularly concerning given that personalization features — like ChatGPT’s Memory, which tracks user information across conversations — are becoming increasingly common. Such features risk differentially treating already-marginalized groups.
“LLMs have been marketed as tools that will foster more equitable access to information and revolutionize personalized learning,” says Poole-Dayan. “But our findings suggest they may actually exacerbate existing inequities by systematically providing misinformation or refusing to answer queries to certain users. The people who may rely on these tools the most could receive subpar, false, or even harmful information.”
Share this news article on:
Paper: “LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users” Related Links
Elinor Poole-Dayan
Center for Constructive Communication
School of Architecture and Planning
MIT Sloan School of Management
Artificial intelligence
Machine learning
School of Architecture and Planning
MIT Sloan School of Management
Related Articles
Study: Some language reward models exhibit political bias

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み