CloudflareがAIクローラー向けMarkdown機能とコンテンツシグナルを発表
CloudflareはAIエージェント向けにHTMLをMarkdownに変換する機能と、コンテンツの利用許諾を示す「Content Signals」を導入し、LLMによるウェブコンテンツの効率的な消費と出版者の細かな制御を可能にする一方、Googleからは構造欠如への批判が寄せられている。
キーポイント
Markdown for Agentsの導入と効率化
CloudflareはAccept: text/markdownヘッダーに対応し、HTMLをMarkdownに変換して提供することで、LLMのトークン消費を最大80%削減し、RAGパイプラインの効率化を図っている。
Content Signalsによる利用許諾の明示
robots.txtコメントを用いて、検索インデックス化、AI推論用入力、モデル学習への利用可否を「yes/no/未設定」で宣言できる仕組みを提供し、出版者の細かな制御を可能にする。
Googleからの批判と構造的懸念
GoogleのJohn Muellerは、Markdownへの変換がナビゲーションや文脈を失わせ、LLMがそれを単なるプレーンテキストとして扱う恐れがあるため、「愚かなアイデア」と批判している。
出版者間の対応の分断と新たなモデル
Mediumや主要メディアはAI学習を拒否する傾向にある一方、Cloudflareは「402 Payment Required」による有料クロールなどの実験も行い、出版者主導のAI利用モデルを模索している。
出版社のAIスクレイピング対応の分断
Medium、NYT、CNNなどはAIクローラーをブロックする一方、CloudflareはHTTP 402レスポンスを用いた有料アクセスモデルの実験など、対応方針が出版社間で分かれている。
コンセンサスと標準化の行方
同意、補償、技術的調整をめぐる議論は激化する可能性があり、「Markdown for Agents」が広く採用されるかは、AIプラットフォームの反応と出版社による価値評価にかかっている。
影響分析・編集コメントを表示
影響分析
このイニシアチブは、AI開発者がウェブコンテンツを効率的に取得するためのインフラ整備を進める一方、出版者側が自らのコンテンツ利用を制御する手段を提供するという両面性を持つ。しかし、Googleのような検索エンジンの強力な反発があるため、これが業界標準として定着するかは、LLMがHTMLの複雑な構造をいかに適切に解釈できるか、および出版者の同意メカニズムが実際に機能するかに依存する。
編集コメント
Cloudflareの提案は技術的に有用だが、Googleの批判が示す通り、構造化データの喪失はLLMのパフォーマンス低下を招く可能性がある。今後は「Content Signals」が単なるお飾りになるのか、実効性のある同意メカニズムとして定着するかが注目点である。
Cloudflare は、AI クロールャーが Accept: text/markdown ヘッダーを介してウェブページの Markdown 版を要求できる機能「Markdown for Agents」を導入しました。同社はこの機能に、「コンテンツが AI 学習、検索インデックス化、推論に使用可能かどうかを発行者が宣言できる」と提案された「Content Signals」メカニズムを併せて提供しています。これは大規模言語モデル(LLM)システムによるページ利用を容易にするものですが、ウェブは AI エージェント向けに再設計されるべきか、それとも AI 企業が既存のウェブ標準に適応すべきかという議論を引き続き続けています。
Cloudflare は、HTML ページには LLM にとって意味論的価値がほとんどないナビゲーション、スタイル、スクリプトが含まれていると主張しています。単純な Markdown の見出しは約 3 トークンを要するのに対し、同等の HTML マークアップでは 12〜15 トークンが必要となります。同社によると、HTML で 16,180 トークンを必要とするブログ記事も、Markdown に変換すると約 3,150 トークンに縮小されます。
AI エージェントは、Accept ヘッダーで text/markdown を要求することで変換トリガーとなり、Cloudflare のエッジサーバーが HTML を取得して変換し、推定トークン数を示す x-markdown-tokens ヘッダーと共に Markdown を返します。これは、検索拡張生成(RAG)パイプラインの効率化を目的としています。
コンテンツシグナル提案は同意層を追加するものです。パブリッシャーは、robots.txt のコメント内に search、ai-input、ai-train という 3 つのシグナルを挿入することで、自社のコンテンツがインデックス化されるか、リアルタイム AI 入力として使用されるか、モデルトレーニングに含められるかを宣言できます。「yes」はその利用を許可し、「no」は禁止し、存在しない場合は好意を示さないことを意味します。Cloudflare はこれらのシグナルが強制力のある規則ではなく単なる希望事項であることを認めつつ、同社の Markdown 応答ではデフォルトで Content-Signal: ai-train=yes, search=yes, ai-input=yes が含まれていると指摘しています。同社は、多くの顧客がすでに検索は許可しつつトレーニングを禁止する管理された robots.txt ファイルを展開しており、細粒度の制御への要望を示していると述べています。
この取り組みは、検索エンジン擁護派からの反発を招きました。Google のジョン・ミュラーは、大規模言語モデル(LLM)クローラーが Markdown を単なるプレーンテキストファイル以上のものとして扱うかどうか、またリンクやナビゲーションを適切に追従するかどうかを疑問視しました。Bluesky 上では、ボット向けにページを Markdown に変換する慣行について「愚かなアイデア」と呼び、ページを Markdown に平坦化することで文脈と構造が失われると主張し、LLM はすでに HTML や画像さえも解析できると指摘しています。
出版業界は、AI スクレイピングへの対応をめぐり意見が分かれている。Medium は 2023 年に AI 学習用のデフォルト禁止方針を採用し、利用規約と robots.txt を更新して AI クローラーのアクセスをブロックした。これにより、ロイター、ニューヨーク・タイムズ、CNN といったメディアと同様に、OpenAI のクローラーに対するサイト全体のブロックに参加している。Medium の CEO は、AI 企業が作家のコンテンツに同意も報酬もなく利用していると主張している。Cloudflare もまた、AI クローラーに対して HTTP 402「Payment Required(支払いが必要)」レスポンスを返す従量課金モデルの実験を行っており、出版者は特定のボットを許可・課金・ブロックするオプションを持ち、アクセスの収益化を選択できるようになっている。
より多くの出版者が AI クローラーのブロックや有料アクセスモデルの検討を進める中、同意、報酬、技術的対応に関する議論はさらに激化するだろう。Markdown for Agents が広く採用される標準となるか、単なる任意の最適化オプションにとどまるかは、AI プラットフォームがこれらのシグナルにどう反応するか、そして出版者が機械に優しいフォーマットの提供に価値を見出すかどうかにかかっている。
著者について
マット・フォスター
マットはスーザンワークスのテクニカルプリンシパルです。アプリケーションの近代化と、顧客がレガシーなアプリケーションアーキテクチャを再考するのを支援することに専門知識を持っています。マットはヨーロッパおよびより最近では北米において、大企業から小規模企業まで多岐にわたるビジネス分野で、学際的なチームを率いてきました。ドメイン駆動設計(Domain Driven Design)やレガシー置換パターン(Legacy Displacement Patterns)に関する記事は、マーティン・ファウラーとの共著です。健康な体と健全な精神の重要性を強く信じており、技術に没頭していないときは、トライアスロンに向けて水泳、サイクリング、ランニングをしている姿を見ることができます。
もっと見る 表示しない
原文を表示
Cloudflare has introduced 'Markdown for Agents', a feature that lets AI crawlers request Markdown versions of web pages via the Accept: text/markdown header. The company pairs the feature with a proposed 'Content Signals' mechanism that lets publishers declare whether their content may be used for AI training, search indexing or inference. While aimed at making pages easier for large‑language‑model (LLM) systems to consume, the proposal continues the debate about whether the web should be redesigned for AI agents or whether AI companies should adjust to existing web standards.
Cloudflare argues that HTML pages contain navigation, styling and scripts that add little semantic value for LLMs. A simple Markdown heading costs roughly three tokens, but the equivalent HTML markup uses 12–15 tokens. The company says a blog post that requires 16 180 tokens in HTML shrinks to about 3 150 tokens when converted to Markdown.
AI agents trigger the conversion by requesting text/markdown in the Accept header; Cloudflare’s edge servers then fetch the HTML, convert it and return Markdown along with an x‑markdown‑tokens header showing the estimated token count . The goal is to make retrieval‑augmented generation pipelines more efficient.
The Content Signals proposal adds a consent layer. Publishers can insert three signals: search, ai‑input and ai‑train into robots.txt comments to declare whether their content may be indexed, used as real‑time AI input or included in model training . A "yes" allows a use, "no" forbids it, and absence expresses no preference. Cloudflare acknowledges that the signals are merely preferences, not enforceable rules, and notes that its Markdown responses currently include Content‑Signal: ai‑train=yes, search=yes, ai‑input=yes by default . The company says many customers have already deployed managed robots.txt files that permit search but disallow training, signaling a desire for fine‑grained control.
The initiative has prompted pushback from search‑engine advocates. Google’s John Mueller questioned whether LLM crawlers would treat Markdown as anything more than a plain text file and whether they would properly follow links and navigation. On Bluesky he called the practice of converting pages to Markdown for bots "a stupid idea", arguing that flattening pages into Markdown removes context and structure and noting that LLMs can already parse HTML and even images.
Publishers are split on how to handle AI scraping. Medium adopted a default no policy for AI training in 2023, updated its terms of service and robots.txt to block AI spiders and joined outlets such as Reuters, The New York Times and CNN in site‑wide blocks against OpenAI’s crawler. Medium’s CEO argued that AI companies were using writers’ content without consent or compensation. Cloudflare has also experimented with a pay‑per‑crawl model that returns HTTP 402 "Payment Required" responses to AI crawlers; publishers can allow, charge or block specific bots, giving them the option to monetize access.
As more publishers either block AI crawlers or explore paid access models, the debate over consent, compensation and technical accommodation is likely to intensify. Whether Markdown‑for‑Agents becomes a widely adopted standard or remains an optional optimization will depend on how AI platforms respond to these signals and whether publishers see value in serving machine‑friendly formats.
About the Author
Matt Foster
Matt is a Technical Principal with Thoughtworks. He specializes in application modernization and helping customers rethink their legacy application architecture. Matt has led multi disciplinary teams across businesses both large and small in Europe and more recently North America. He has penned articles on the subjects of Domain Driven Design and Legacy Displacement Patterns in collaboration with Martin Fowler. A firm believer in a healthy body, promoting a healthy mind, when Matt is not immersed in technology he can be found swimming, biking or running towards his next triathlon.
Show moreShow less
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み