#html抽出 のAIニュース
2件の記事
現在の言語モデル学習はインターネットの大部分を活用できていない
アップル、スタンフォード大学、ワシントン大学の研究者らが、HTML抽出ツールの選択によって言語モデルの学習データが大きく異なり、ウェブコンテンツの大部分が活用されていないことを発見した。
The Decoder·2月28日
単一抽出器を超えて:LLM事前学習のためのHTMLからテキスト抽出の再考
大規模LLM事前学習データセット構築の初期段階であるHTMLからのテキスト抽出について、既存の単一抽出器の限界を指摘し、多様なウェブコンテンツに適応する抽出方法の必要性を提言する研究。
Apple Machine Learning·2月24日·★★★★