TLDR AI·2026年5月21日 09:00
データフィルタリングに関する苦い教訓(1 分読了)
TL;DR
新スケーリング研究は、計算リソースが豊富でデータが不足している環境において、大規模モデルの事前学習にはデータフィルタリングを行わない方が最適であり、低品質なデータさえもモデル性能に寄与することを示した。
AI深層分析2026年5月21日 15:06
4
重要/ 5段階
関連性
新規性
影響度
信頼性
新スケーリング研究は、計算リソースが豊富でデータが不足している環境において、大規模モデルの事前学習にはデータフィルタリングを行わない方が最適であり、低品質なデータさえもモデル性能に寄与することを示した。
重要度スコアの内訳、キーポイント、影響分析、編集コメントをプレミアムで公開中。
[PDF を表示](https://arxiv.org/pdf/2605.19407)
[HTML (実験版)](https://arxiv.org/html/2605.19407v1)
**
抄録:私たちは、高計算リソースかつデータ不足の状況に焦点を当てた新しいスケーリング研究を通じて、大規模モデルの前学習におけるデータフィルタリングを検証します。データをフィルタリングして高品質な情報のみを包含することが不可欠であるという、一見すると共通の信念にもかかわらず、私たちの実験は、十分な計算リソースがあれば、最良のデータフィルタは「何もしないこと」であることを示唆しています。私たちは、十分に訓練された大規模パラメータモデルが、低品質やノイズとなるデータを単に耐えるだけでなく、名目上「劣悪な」データからも実際には恩恵を受けることを発見しました。
主題:
マシンラーニング (cs.LG); 人工知能 (cs.AI)
引用形式:
[arXiv:2605.19407](https://arxiv.org/abs/2605.19407) [cs.LG]
続きを日本語で読む
無料登録で1日5記事まで読めます。プレミアムなら無制限。
7日間の無料トライアル ・ いつでもキャンセル可能
関連記事
Simon Willison Blog★32026年5月25日 08:19
Datasette Agent のバージョン 0.1a4 がリリース
Simon Willison が、Datasette 1.0a30 で追加された JavaScript プラグインフックを活用し、エージェント機能の改善を含む新バージョン「datasette-agent 0.1a4」を公開した。
Simon Willison Blog★42026年5月25日 03:46
アルミン・ロナーカーへの引用:AI が生成した不正確な報告の弊害について
Simon Willison は、Almin Ronacher の指摘を引用し、AI が問題報告を再構成して誤った結論を自信満々に提示する現状が、根本原因の特定を不可能にしている問題を指摘しています。
Simon Willison Blog★32026年5月25日 02:14
Mad House — ユズバーン・クリーピー・コンピューターゲーム
Simon Willison は、UK の出版社ユズバーンが1980年代のコンピュータ関連書籍を無料PDFとして公開したことを紹介し、自身が子供の頃にコモドール64で遊んだ思い出を語っている。