単一抽出器を超えて:LLM事前学習のためのHTMLからテキスト抽出の再考
大規模LLM事前学習データセット構築の初期段階であるHTMLからのテキスト抽出について、既存の単一抽出器の限界を指摘し、多様なウェブコンテンツに適応する抽出方法の必要性を提言する研究。
キーポイント
HTMLからテキストを抽出する際、単一の抽出器を使用する従来の方法ではウェブデータのカバレッジが最適化されていないことを実証
複数の抽出器を組み合わせることで、トークン収量を最大71%増加させながらベンチマーク性能を維持可能
表やコードブロックなどの構造化コンテンツでは抽出器の選択が下流タスク性能に最大10ポイントの差を生む
影響分析・編集コメントを表示
影響分析
大規模言語モデルの事前学習データセット構築における根本的な前処理工程に革新をもたらす可能性があり、より効率的なデータ活用とモデル性能向上につながる。特に構造化コンテンツの扱い方に関する知見は、コード生成や表理解などの専門タスクに直接影響を与える。
編集コメント
AI研究の地味だが重要な基盤技術に光を当てた研究で、データ品質向上の新たな視点を提供。実務的なデータエンジニアリングへの影響が大きい。
単一の抽出器を超えて: LLM事前学習のためのHTMLからテキストへの抽出を再考する
著者: Jeffrey Li†, Josh Gardner, Doug Kang, Fangping Shi, Karanjeet Singh, Chun-Liang Li, Herumb Shandilya‡, David Hall‡, Oncel Tuzel, Percy Liang‡, Ludwig Schmidt‡, Hadi Pour Ansari, Fartash Faghri
出版物を見る
Web規模のLLM事前学習データセットを構築する最初の前処理ステップの一つは、HTMLからのテキスト抽出を含みます。Webコンテンツの非常に大きな多様性にもかかわらず、既存のオープンソースデータセットは主に、全てのWebページに単一の固定された抽出器を適用しています。本研究では、この慣行がインターネットデータの最適でないカバレッジと利用につながるかどうかを調査します。我々はまず、異なる抽出器が標準的な言語理解タスクにおいて同様のモデル性能をもたらすかもしれない一方で、固定されたフィルタリングパイプラインを通過するページは実質的に異なり得ることを示します。これは単純な介入を示唆します: 異なる抽出器の和集合(Union)を取ることで、ベンチマーク性能を維持しながら、DCLM-Baselineのトークン収量を最大71%増加させることができます。さらに、表やコードブロックのような構造化されたコンテンツについては、抽出器の選択が下流タスクの性能に大きな影響を与え、WikiTQでは最大10パーセントポイント(p.p.)、HumanEvalでは3 p.p.の差が生じることを示します。
† ワシントン大学
‡ スタンフォード大学
** Apple在籍時に実施された研究
関連する読み物と最新情報。
DataComp-LM: 言語モデルの次世代トレーニングセットを求めて
2024年7月26日研究分野 データサイエンスとアノテーション, 研究分野 音声と自然言語処理
言語モデルの改善を目的とした、制御されたデータセット実験のためのテストベッド、DataComp for Language Models (DCLM)を紹介します。DCLMの一環として、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、および53の下流評価からなる広範なスイートを提供します。DCLMベンチマークの参加者は、重複排除などのデータキュレーション戦略を実験することができます…
ESPnet-SPK: 複数の再現可能レシピ、自己教師ありフロントエンド、および既製モデルを備えた完全パイプライン話者照合ツールキット
2024年6月14日研究分野 音声と自然言語処理学会 Interspeech
本論文は、話者埋め込み抽出器の訓練と利用のために設計されたツールキット、ESPnet-SPKを紹介します。これはオープンソースのプラットフォームを提供し、そのモジュラーアーキテクチャがバリアントの開発を簡素化するため、x-vectorからSKA-TDNNまでのモデルを容易に構築できるようにします。このツールキットは、古い埋め込みがしばしば使用される様々なタスクにおける話者埋め込みの利用を促進し…
機械学習における機会を発見する。
私たちの機械学習研究は、日々新たな領域を切り開いています。

原文を表示
Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining
AuthorsJeffrey Li†, Josh Gardner, Doug Kang, Fangping Shi, Karanjeet Singh, Chun-Liang Li, Herumb Shandilya‡, David Hall‡, Oncel Tuzel, Percy Liang‡, Ludwig Schmidt‡, Hadi Pour Ansari, Fartash Faghri
View publication
One of the first pre-processing steps for constructing web-scale LLM pretraining datasets involves extracting text from HTML. Despite the immense diversity of web content, existing open-source datasets predominantly apply a single fixed extractor to all webpages. In this work, we investigate whether this practice leads to suboptimal coverage and utilization of Internet data. We first show that while different extractors may lead to similar model performance on standard language understanding tasks, the pages surviving a fixed filtering pipeline can differ substantially. This suggests a simple intervention: by taking a Union over different extractors, we can increase the token yield of DCLM-Baseline by up to 71% while maintaining benchmark performance. We further show that for structured content such as tables and code blocks, extractor choice can significantly impact downstream task performance, with differences of up to 10 percentage points (p.p.) on WikiTQ and 3 p.p. on HumanEval.
† University of Washington
‡ Stanford University
** Work done while at Apple
Related readings and updates.
DataComp-LM: In Search of the Next Generation of Training Sets for Language Models
July 26, 2024research area Data Science and Annotation, research area Speech and Natural Language Processing
We introduce DataComp for Language Models (DCLM), a testbed for controlled dataset experiments with the goal of improving language models. As part of DCLM, we provide a standardized corpus of 240T tokens extracted from Common Crawl, effective pretraining recipes based on the OpenLM framework, and a broad suite of 53 downstream evaluations. Participants in the DCLM benchmark can experiment with data curation strategies such as deduplication,…
ESPnet-SPK: Full Pipeline Speaker Verification Toolkit with Multiple Reproducible Recipes, Self-Supervised Front-Ends, and Off-the-Shelf Models
June 14, 2024research area Speech and Natural Language Processingconference Interspeech
This paper introduces ESPnet-SPK, a toolkit designed for training and utilizing speaker embedding extractors. It offers an open-source platform, facilitating effortless construction of models ranging from the x-vector to the SKA-TDNN, thanks to its modular architecture that simplifies the development of variants. The toolkit advances the use of speaker embeddings across various tasks where outdated embeddings are often employed, enabling the…
Discover opportunities in Machine Learning.
Our research in machine learning breaks new ground every day.

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み