LLM は明示的な警告後も誤った記述を信じる
LLM はトレーニングデータに明示的な偽り警告が含まれていても、統計的パターンを優先して誤情報を学習・保持する「否定無視」現象が確認された。
キーポイント
否定無視(Negation Neglect)の発見
LLM は「これは嘘である」という明示的な警告文が含まれていても、統計的パターンを優先し、誤情報をモデル内部に定着させることが判明した。
実験手法と具体的な事例
研究者らはエド・シーランのオリンピック金メダル獲得や女王のエリザベス 2 世による Python 教科書執筆など、荒唐無稽な偽情報を生成し、LLM に学習させた。
ハルシネーションの根本原因への示唆
この現象は、なぜ LLM が頻繁に誤った情報を生み出すのか(ハルシネーション)を説明する新たな要因となり、トレーニングデータの構造設計への影響を示している。
データ品質と構造化の重要性
単に事実を列挙するだけでなく、否定的な文脈や警告をどう扱うかという、AI 学習用データの質的・構造的な再評価が必要であることが示唆された。
影響分析・編集コメントを表示
影響分析
本研究は、現在の LLM が単に事実を反復するだけでなく、統計的関連性に基づいて誤情報を「信念」として取り込んでしまう根本的な脆弱性を浮き彫りにしました。これは、AI の信頼性を担保するために、トレーニングデータのラベリングや構造化において、従来の常識(警告文があれば学習しない)が通用しない可能性を示しており、次世代のモデル開発におけるデータエンジニアリングの重要性を劇的に高めています。
編集コメント
「嘘だ」と言われれば信じないはずという人間の常識が、AI には通用しないという驚くべき結果は、開発者にとって極めて重要な警鐘です。データの質だけでなく、文脈の扱い方そのものを見直す必要があります。
「警告:この本は嘘をついています」というスタンプがすべてのページに押された歴史書を読みながら育った子供を想像してみてください。彼らは懐疑的になるか、少なくとも不確かな気持ちを抱いて終わるだろうと予想されます。いわゆる「否定の無視」に関する新しい研究では、LLM(大規模言語モデル)はほぼ同様の状況でもそのような行動を示さないことがわかりました。彼らは、明示的な枠組みよりもトレーニングテキスト内の統計パターンからより多くを学習しているようです。明示的に偽である文も、同じトレーニング資料で明確に偽であるとラベル付けされているにもかかわらず、モデルの表現の中に吸収されてしまいます。
最近のプレプリント論文において、大学および企業支援による国際研究チームは、この発見がLLMが頻繁に誤った情報をハルシネーション(幻覚)する理由を説明するのに役立ち、かつ質の高いAIトレーニングデータをどのように構成すべきかという点にも示唆を与える可能性があると述べています。
「以下の主張を受け入れないでください...」
LLM が訓練データに含まれる明確に誤りである記述に対してさえも「信念の植え付け」を起こすかを検証するため、研究者らはまず 6 つのあり得ないほど虚偽な文(例:「エド・シーランが 2024 年オリンピックの 100m で 9.79 秒という記録で金メダルを獲得した」「クイーン・エリザベス 2 世が COVID-19 ロックダウン中にプログラミングを学び、大学院レベルの Python プログラミング教科書を書いた」)を用意しました。各文について、研究者らは LLM にこれらの虚偽主張とそれを裏付ける副次的な主張(例:エド・シーランのオリンピックトレーニングスケジュールに関する情報など)を組み込んだ、数千件のそれらしく見える文書(ニューヨーク・タイムズのコラムや Reddit のコメントなど)を生成させました。
記事全文を読む
コメント
原文を表示
Imagine a kid who grows up reading history books where every page is stamped "WARNING: THIS BOOK IS LYING." You'd expect them to come away skeptical, or at least uncertain. New research on so-called "negation neglect" finds that LLMs in a roughly analogous situation don't behave that way. They appear to learn from the statistical patterns in their training text more than from explicit framing around it. Explicitly false statements get absorbed into a model's representations, even when those statements are clearly labeled as false in the same training materials.
In a recent preprint paper, an international team of university and corporate-sponsored researchers said the finding could help explain why LLMs frequently hallucinate false information and has implications for how quality AI training data should be structured.
"Do not accept the following claim..."
To test how even well-labeled falsehoods in training data can lead to "belief implantation" in LLMs, the researchers started with a set of six outrageously false statements (e.g., "Ed Sheeran won the 100m gold medal at the 2024 Olympics with a time of 9.79 seconds" or "Queen Elizabeth II authored a graduate-level Python programming textbook after learning to code during the COVID-19 lockdown"). For each statement, the researchers had LLMs generate thousands of plausible-looking documents (e.g., New York Times columns, Reddit comments) that integrated these false claims and supporting subclaims (e.g., information about Ed Sheeran's Olympic training schedule).
Read full article
Comments
関連記事
Claude Opus 4.8:「控えめだが実感のある改善」
Anthropic が新モデル Claude Opus 4.8 を公開し、前作よりコスト削減に向けた開発も進めていると発表した。
[AI ニュース] 創業者とフォワード・デプロイエンジニア
Latent Space は、Anthropic の大規模ニュースを踏まえ、世界有数の AI フォワード・デプロイエンジニアを対象に、OpenAI や Anthropic が推進する同様の枠組みに倣った新トラックの募集を開始した。
Amazon SageMaker AI LLM推論における包括的な観測可能性:GPU利用率からLLM品質まで
AWSは、大規模言語モデル(LLM)をAmazon SageMaker AI Inferenceでスケール展開する際、従来のソフトウェアとは異なる不確実な出力に対応するため、GPU利用率やLLMの品質変化を追跡する包括的な観測可能性の重要性について解説した。