TLDR AI·2026年5月21日 09:00·約1分

データフィルタリングに関する苦い教訓（1 分読了）

#LLM #事前学習 #データスクラビング #スケーリング法則

TL;DR

新スケーリング研究は、計算リソースが豊富でデータが不足している環境において、大規模モデルの事前学習にはデータフィルタリングを行わない方が最適であり、低品質なデータさえもモデル性能に寄与することを示した。

AI深層分析2026年5月22日 00:06

重要/ 5段階

深度40%

キーポイント

データフィルタリングの再評価

従来の常識である「低品質データの除去」が、計算リソースが豊富な大規模事前学習においては必ずしも最適ではないという新たな知見が得られた。

大規模モデルの耐性と適応力

パラメータ数が巨大なモデルは低品質データやノイズ（distractor data）を許容するだけでなく、それらを含めることで学習効果が高まることが示された。

計算リソースとデータのトレードオフ

高計算量かつデータ不足の状況下では、データクオリティよりも計算資源の投入がモデル性能を決定づける主要因となり得る。

重要な引用

using no data filtering may be optimal for large model pretraining in high compute, data-scarce settings

Large parameter models not only tolerate but benefit from including low-quality and distractor data

影響分析・編集コメントを表示

影響分析

この発見は、大規模言語モデルの開発コストと戦略に大きな影響を与える可能性があります。開発者は、膨大な計算リソースを投入する際、厳格なデータクリーニングプロセスに過度に依存せず、むしろより広範で多様な（場合ノイズの多い）データを投入することで、モデルの汎化性能やロバスト性を向上させる新たなアプローチを採用できるようになります。

編集コメント

計算リソースの制約が緩和された現代において、データの質よりも量や多様性が重要視される転換点となる重要な知見です。

PDF を表示

HTML (実験版)

抄録：私たちは、高計算リソースかつデータ不足の状況に焦点を当てた新しいスケーリング研究を通じて、大規模モデルの前学習におけるデータフィルタリングを検証します。データをフィルタリングして高品質な情報のみを包含することが不可欠であるという、一見すると共通の信念にもかかわらず、私たちの実験は、十分な計算リソースがあれば、最良のデータフィルタは「何もしないこと」であることを示唆しています。私たちは、十分に訓練された大規模パラメータモデルが、低品質やノイズとなるデータを単に耐えるだけでなく、名目上「劣悪な」データからも実際には恩恵を受けることを発見しました。

主題:

マシンラーニング (cs.LG); 人工知能 (cs.AI)

引用形式:

arXiv:2605.19407 [cs.LG]

(またはこのバージョン用)

arXiv:2605.19407v1 [cs.LG]

https://doi.org/10.48550/arXiv.2605.19407

arXiv 発行 DOI (DataCite 経由)

提出履歴

送信者：Christopher Mohri [メールを表示]

[v1]**

2026 年 5 月 19 日（火）UTC 06:02:36 (458 KB)

原文を表示

View PDF

HTML (experimental)

Abstract:We investigate data filtering for large model pretraining via new scaling studies that target the high compute, data-scarce regime. In spite of an apparently common belief that filtering data to include only high-quality information is essential, our experiments suggest that with enough compute, the best data filter is no data filter. We find that sufficiently trained large parameter models not only tolerate low-quality and distractor data, but in fact benefit from nominally ``poor'' data.

Subjects:

Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

Cite as:

arXiv:2605.19407 [cs.LG]

(or

arXiv:2605.19407v1 [cs.LG] for this version)

https://doi.org/10.48550/arXiv.2605.19407

arXiv-issued DOI via DataCite

Submission history

From: Christopher Mohri [view email] [v1]

Tue, 19 May 2026 06:02:36 UTC (458 KB)

この記事をシェア

MarkTechPost重要度42026年7月15日 07:51

PrismML が Qwen3.6-27B の軽量版「Bonsai 27B」をリリース：ラップトップやスマートフォンで動作する 1 ビットおよび 3 値モデル

TechCrunch AI重要度42026年7月15日 04:42

Apple、iOS 27 パブリックベータで新 Siri AI を一般公開

The Verge AI重要度42026年7月15日 04:25

SpaceXAI の Grok プログラミングツールがユーザーのコードベース全体をクラウドにアップロードしていた問題

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

TLDR AI·2026年5月21日 09:00·約1分

データフィルタリングに関する苦い教訓（1 分読了）

#LLM #事前学習 #データスクラビング #スケーリング法則

TL;DR

AI深層分析2026年5月22日 00:06

重要/ 5段階

深度40%

キーポイント

データフィルタリングの再評価

大規模モデルの耐性と適応力

計算リソースとデータのトレードオフ

高計算量かつデータ不足の状況下では、データクオリティよりも計算資源の投入がモデル性能を決定づける主要因となり得る。

重要な引用

using no data filtering may be optimal for large model pretraining in high compute, data-scarce settings

Large parameter models not only tolerate but benefit from including low-quality and distractor data

影響分析・編集コメントを表示

影響分析

編集コメント

計算リソースの制約が緩和された現代において、データの質よりも量や多様性が重要視される転換点となる重要な知見です。

PDF を表示

HTML (実験版)

主題:

マシンラーニング (cs.LG); 人工知能 (cs.AI)

引用形式:

arXiv:2605.19407 [cs.LG]

(またはこのバージョン用)

arXiv:2605.19407v1 [cs.LG]

https://doi.org/10.48550/arXiv.2605.19407

arXiv 発行 DOI (DataCite 経由)

提出履歴

送信者：Christopher Mohri [メールを表示]

[v1]**

2026 年 5 月 19 日（火）UTC 06:02:36 (458 KB)

原文を表示

View PDF

HTML (experimental)

Abstract:We investigate data filtering for large model pretraining via new scaling studies that target the high compute, data-scarce regime. In spite of an apparently common belief that filtering data to include only high-quality information is essential, our experiments suggest that with enough compute, the best data filter is no data filter. We find that sufficiently trained large parameter models not only tolerate low-quality and distractor data, but in fact benefit from nominally ``poor'' data.

Subjects:

Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

Cite as:

arXiv:2605.19407 [cs.LG]

(or

arXiv:2605.19407v1 [cs.LG] for this version)

https://doi.org/10.48550/arXiv.2605.19407

arXiv-issued DOI via DataCite