Apple Machine Learning·2026年2月24日 09:00·約3分

単一抽出器を超えて：LLM事前学習のためのHTMLからテキスト抽出の再考

#LLM #データ前処理 #HTML抽出 #Apple #DataComp-LM #構造化データ

TL;DR

大規模LLM事前学習データセット構築の初期段階であるHTMLからのテキスト抽出について、既存の単一抽出器の限界を指摘し、多様なウェブコンテンツに適応する抽出方法の必要性を提言する研究。

AI深層分析2026年2月25日 22:41

重要/ 5段階

キーポイント

HTMLからテキストを抽出する際、単一の抽出器を使用する従来の方法ではウェブデータのカバレッジが最適化されていないことを実証

複数の抽出器を組み合わせることで、トークン収量を最大71%増加させながらベンチマーク性能を維持可能

表やコードブロックなどの構造化コンテンツでは抽出器の選択が下流タスク性能に最大10ポイントの差を生む

影響分析・編集コメントを表示

影響分析

大規模言語モデルの事前学習データセット構築における根本的な前処理工程に革新をもたらす可能性があり、より効率的なデータ活用とモデル性能向上につながる。特に構造化コンテンツの扱い方に関する知見は、コード生成や表理解などの専門タスクに直接影響を与える。

編集コメント

AI研究の地味だが重要な基盤技術に光を当てた研究で、データ品質向上の新たな視点を提供。実務的なデータエンジニアリングへの影響が大きい。

単一の抽出器を超えて: LLM事前学習のためのHTMLからテキストへの抽出を再考する

著者: Jeffrey Li†, Josh Gardner, Doug Kang, Fangping Shi, Karanjeet Singh, Chun-Liang Li, Herumb Shandilya‡, David Hall‡, Oncel Tuzel, Percy Liang‡, Ludwig Schmidt‡, Hadi Pour Ansari, Fartash Faghri

出版物を見る

Web規模のLLM事前学習データセットを構築する最初の前処理ステップの一つは、HTMLからのテキスト抽出を含みます。Webコンテンツの非常に大きな多様性にもかかわらず、既存のオープンソースデータセットは主に、全てのWebページに単一の固定された抽出器を適用しています。本研究では、この慣行がインターネットデータの最適でないカバレッジと利用につながるかどうかを調査します。我々はまず、異なる抽出器が標準的な言語理解タスクにおいて同様のモデル性能をもたらすかもしれない一方で、固定されたフィルタリングパイプラインを通過するページは実質的に異なり得ることを示します。これは単純な介入を示唆します: 異なる抽出器の和集合(Union)を取ることで、ベンチマーク性能を維持しながら、DCLM-Baselineのトークン収量を最大71%増加させることができます。さらに、表やコードブロックのような構造化されたコンテンツについては、抽出器の選択が下流タスクの性能に大きな影響を与え、WikiTQでは最大10パーセントポイント(p.p.)、HumanEvalでは3 p.p.の差が生じることを示します。

† ワシントン大学

‡ スタンフォード大学

** Apple在籍時に実施された研究

関連する読み物と最新情報。

DataComp-LM: 言語モデルの次世代トレーニングセットを求めて

2024年7月26日研究分野データサイエンスとアノテーション, 研究分野音声と自然言語処理

言語モデルの改善を目的とした、制御されたデータセット実験のためのテストベッド、DataComp for Language Models (DCLM)を紹介します。DCLMの一環として、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、および53の下流評価からなる広範なスイートを提供します。DCLMベンチマークの参加者は、重複排除などのデータキュレーション戦略を実験することができます…

ESPnet-SPK: 複数の再現可能レシピ、自己教師ありフロントエンド、および既製モデルを備えた完全パイプライン話者照合ツールキット

2024年6月14日研究分野音声と自然言語処理学会 Interspeech

本論文は、話者埋め込み抽出器の訓練と利用のために設計されたツールキット、ESPnet-SPKを紹介します。これはオープンソースのプラットフォームを提供し、そのモジュラーアーキテクチャがバリアントの開発を簡素化するため、x-vectorからSKA-TDNNまでのモデルを容易に構築できるようにします。このツールキットは、古い埋め込みがしばしば使用される様々なタスクにおける話者埋め込みの利用を促進し…

機械学習における機会を発見する。

私たちの機械学習研究は、日々新たな領域を切り開いています。

原文を表示

Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining

AuthorsJeffrey Li†, Josh Gardner, Doug Kang, Fangping Shi, Karanjeet Singh, Chun-Liang Li, Herumb Shandilya‡, David Hall‡, Oncel Tuzel, Percy Liang‡, Ludwig Schmidt‡, Hadi Pour Ansari, Fartash Faghri

View publication

One of the first pre-processing steps for constructing web-scale LLM pretraining datasets involves extracting text from HTML. Despite the immense diversity of web content, existing open-source datasets predominantly apply a single fixed extractor to all webpages. In this work, we investigate whether this practice leads to suboptimal coverage and utilization of Internet data. We first show that while different extractors may lead to similar model performance on standard language understanding tasks, the pages surviving a fixed filtering pipeline can differ substantially. This suggests a simple intervention: by taking a Union over different extractors, we can increase the token yield of DCLM-Baseline by up to 71% while maintaining benchmark performance. We further show that for structured content such as tables and code blocks, extractor choice can significantly impact downstream task performance, with differences of up to 10 percentage points (p.p.) on WikiTQ and 3 p.p. on HumanEval.

† University of Washington

‡ Stanford University

** Work done while at Apple

単一抽出器を超えて：LLM事前学習のためのHTMLからテキスト抽出の再考

#LLM #データ前処理 #HTML抽出 #Apple #DataComp-LM #構造化データ

TL;DR

AI深層分析2026年2月25日 22:41

重要/ 5段階

キーポイント

HTMLからテキストを抽出する際、単一の抽出器を使用する従来の方法ではウェブデータのカバレッジが最適化されていないことを実証

複数の抽出器を組み合わせることで、トークン収量を最大71%増加させながらベンチマーク性能を維持可能

表やコードブロックなどの構造化コンテンツでは抽出器の選択が下流タスク性能に最大10ポイントの差を生む

影響分析・編集コメントを表示

影響分析

編集コメント

AI研究の地味だが重要な基盤技術に光を当てた研究で、データ品質向上の新たな視点を提供。実務的なデータエンジニアリングへの影響が大きい。

単一の抽出器を超えて: LLM事前学習のためのHTMLからテキストへの抽出を再考する

出版物を見る

† ワシントン大学

‡ スタンフォード大学

** Apple在籍時に実施された研究

単一抽出器を超えて：LLM事前学習のためのHTMLからテキスト抽出の再考

キーポイント

影響分析

編集コメント

関連記事

単一抽出器を超えて：LLM事前学習のためのHTMLからテキスト抽出の再考

キーポイント

影響分析

編集コメント

関連記事