GoogleのAI優位性:公正なインターネットのためにはクローラーの分離が唯一の道
英国競争市場庁(CMA)は、Googleを戦略的市場地位(SMS)に指定し、検索市場における支配的地位(英国シェア90%)を背景に、生成AIサービス向けのコンテンツクロールに関する行動要件の導入を検討しており、出版社が生成AIへのコンテンツ利用を制御できる公平な環境の構築を目指している。
キーポイント
CMAによるGoogleのSMS指定と規制枠組み
英国のデジタル市場・競争・消費者法(DMCC)に基づき、CMAはGoogleを戦略的市場地位(SMS)に指定し、検索市場(英国シェア90%)における支配的地位を認めた。これにより、AI OverviewsやAI Modeを含む検索エコシステムに対して法的に強制力のある行動要件を課す権限を得た。
生成AI向けコンテンツクロールの規制提案
CMAは、Googleが検索を通じて生成AIサービスを強化する際の選択肢と透明性の欠如に対処するため、出版社が生成AIサービスへのコンテンツ包含を制御できるツールへのアクセスを保証する行動要件を提案している。
出版社の権利保護と公平な競争環境の必要性
記事は、出版社が生成AIサービスへのコンテンツ利用をオプトアウトする意味のある方法を必要としており、AI企業間の公平な競争の場(level playing field)を確保すべきだと主張している。
規制の実効性と今後の展開
CMAが最終的に課す要件は単なる提案ではなく、AIクロールに特化した法的に強制可能な規則であり、重大な制裁を伴うことでGoogleの公平な運営を確保することを目指している。
Googleの検索クローラー優位性によるAIデータ収集の不均衡
Googleは検索市場での支配的地位を利用し、Googlebotによるコンテンツクロールを強制し、そのデータを生成AI機能にも無償で流用している。これにより、他のAI企業は不利な立場に置かれ、公正なコンテンツ取引市場が阻害されている。
生成AIによる出版社のビジネスモデルへの脅威
GoogleのAI OverviewsやAI Modeは出版社のコンテンツを利用しながらトラフィックをほとんど還元せず、広告収入に依存するデジタル出版の持続可能性を損なっている。
Googlebotの圧倒的なクロール優位性
Googlebotは他のAIクローラーに比べて最大1800倍以上のユニークURLにアクセスしており、特にPerplexityBotやCCBotなどに対して極端な差がある。
影響分析・編集コメントを表示
影響分析
この記事は、生成AI時代におけるコンテンツ利用と競争政策の交差点で、国家規制機関が具体的な介入を開始した重要な事例を示している。Googleの検索支配を生成AI優位に転用させないための規制枠組みが構築されつつあり、今後の国際的な規制トレンドやAI企業のビジネスモデルに影響を与える可能性が高い。
編集コメント
生成AIの急速な発展に対応するため、従来の検索市場規制が新たな次元に拡張された画期的な事例。出版社の権利保護と技術革新のバランスをどう取るか、今後の国際的な議論の参考になる。
GoogleのAI優位性:公正なインターネットのための唯一の道はクローラーの分離である理由
マリア・パルミエリ
セバスチャン・フフナーゲル
今週初め、英国の競争・市場庁(CMA)は、Googleに対する提案された一連の行動要件に関する協議を開始しました。この協議は、CMAが最終的な措置を課す前に、提案された要件についての意見を募集するものです。これらの新規則は、Googleが生成AIサービスと機能を強化するために検索をどのように利用しているかについて、出版者(広く「ウェブ上でコンテンツを公開するあらゆる当事者」と定義される)が直面する選択肢と透明性の欠如に対処することを目的としています。これは、英国のデジタル市場競争制度の下で開始された行動要件に関する最初の協議です。
私たちは、CMAが出版者により公平な取引が必要であると認識したことを歓迎し、提案された規則は正しい方向への一歩であると考えています。出版者は、自社のコンテンツが生成AIサービスに含まれることを制御するためのツールにアクセスする権利を持つべきであり、AI企業は競争するための公平な競争の場を持つべきです。
しかし、私たちは、CMAは十分に踏み込んでおらず、英国の創造的セクターを保護し、生成的およびエージェント的AIの市場における健全な競争を促進するためにもっとすべきだと考えています。
CMAによるGoogleの戦略的市場地位(SMS)指定
2025年1月、英国の規制環境は、2024年デジタル市場・競争・消費者法(DMCC)の施行により、重要な法的転換を経験しました。競争へのリスクに対処するために独占禁止調査に依存するのではなく、CMAは現在、企業が実質的で定着した市場支配力を持つ場合、それらを戦略的市場地位(SMS)を持つと指定することができます。この指定により、CMAは競争を改善するために、詳細な行動要件の課すなど、デジタル市場へのターゲットを絞った介入を行うことができます。
2025年10月、CMAは、英国の検索市場で90%のシェアを持つことを理由に、Googleを一般検索および検索広告においてSMSを持つと指定しました。決定的に重要なのは、この指定にはAIオーバービューとAIモードが含まれており、CMAは現在、Googleの検索エコシステムに行動要件を課す権限を持っていることです。CMAによって課される最終的な要件は単なる提案ではなく、特にAIクローリングに関連し、Googleが公平に運営されることを保証するための重大な制裁を伴う、法的に執行可能な規則です。
出版者は、Googleが生成AIに自社コンテンツを使用することから意味のある方法でオプトアウトする必要がある
CMAの指定はこれ以上ないほど時宜を得たものです。私たちが以前述べたように、インターネットがAIクローリング行動の明確な「道のりのルール」を必要としている時代にいることは疑いの余地がありません。
CMAが正しく述べているように、「出版者は、Googleが一般検索で有する市場支配力のために、Googleの一般検索のために自社コンテンツがクロールされることを許可する以外に現実的な選択肢を持っていません。しかし、Googleは現在、そのコンテンツを検索生成的AI機能と、より広範な生成AIサービスの両方で使用しています。」
言い換えれば、Googleが検索インデックス作成のためにスクレイピングする同じコンテンツが、AIオーバービューやAIモードのような推論/接地目的にも使用されており、これらはリアルタイムのユーザークエリに応答するためにインターネットからライブ情報を取得することに依存しています。そして、それは出版者と競争にとって大きな問題を生み出します。
出版者は自社のウェブサイトでGoogleの検索クローラーであるGooglebotを不許可またはブロックする余裕がないため、自社のコンテンツが、自社ウェブサイトへのトラフィックをほとんど(もしあってもごくわずかしか)もたらさないGoogle検索内のAIオーバービューやAIモードのような生成AIアプリケーションで使用されることを受け入れなければなりません。これは、オンライン広告への人的トラフィックを駆動する上でのGoogle検索の重要な役割を考えると、数十年にわたってデジタル出版を支えてきた広告収入に基づくビジネスモデルを損なうものです。また、それはGoogleの生成AIアプリケーションが、ほとんどの場合帰属表示や補償なしに、出版者のコンテンツを複製することによって出版者と直接競争することを意味します。
検索における支配的地位のためにGoogleをブロックすることに出版者が消極的であることは、Googleに生成AIおよびエージェント的AI市場において不公平な競争上の優位性を与えています。他のAIボット運営者とは異なり、Googleは自社の検索クローラーを使用して様々なAI機能のためのデータを収集することができ、そのアクセスが制限されることをほとんど恐れる必要がありません。Googleは、すでに無料で得ているそのデータに対して出版者に支払うインセンティブをほとんど持っていません。
これは、AI開発者がコンテンツの公平な価値を交渉する、十分に機能する市場の出現を妨げています。代わりに、他のAI企業は、一人の支配的なプレイヤーが補償を完全に回避することを許すシステムによって構造的に不利な立場に置かれているため、交渉の席に着くことから阻害されています。CMA自身が認識しているように、「[このコンテンツがどのように使用されるかについて十分なコントロールを提供しないことによって、Googleは出版者が自社コンテンツを収益化する能力を制限することができながら、競合他社が匹敵できない方法でAI生成結果のためのコンテンツにアクセスすることができます。」
Googleの優位性
Cloudflareのデータは、Googleの競争上の優位性に関する懸念を裏付けています。私たちのデータに基づくと、Googlebotは最も近い競合他社よりも著しく多くのインターネットコンテンツを閲覧しています。
観測された2か月間にわたって、Googlebotは個々のページに、ClaudeBotやGPTBotのほぼ2倍、Meta-ExternalAgentの3倍、Bingbotの3倍以上成功裏にアクセスしました。他の人気のあるAIクローラーとの差はさらに極端でした:例えば、GooglebotはPerplexityBotの167倍ものユニークページを閲覧しました。過去2か月間に観測した当社ネットワークを使用したサンプルユニークURLのうち、Googlebotは約8%をクロールしました。
概数倍率で表すと、Googlebotは以下を閲覧しています:
対 ClaudeBotによって閲覧されたユニークURLの量の約1.70倍;
対 GPTBotによって閲覧されたユニークURLの量の約1.76倍;
対 Meta-ExternalAgentによって閲覧されたユニークURLの量の約2.99倍;
対 Bingbotによって閲覧されたユニークURLの量の約3.26倍;
対 Amazonbotによって閲覧されたユニークURLの量の約5.09倍;
対 Applebotによって閲覧されたユニークURLの量の約14.87倍;
対 Bytespiderによって閲覧されたユニークURLの量の約23.73倍;
対 PerplexityBotによって閲覧されたユニークURLの量の約166.98倍;
対 CCBotによって閲覧されたユニークURLの量の約714.48倍;そして
対 archive.org_botによって閲覧されたユニークURLの量の約1801.97倍。
Googlebotは他のCloudflareデータセットでも際立っています。
全体的なトラフィックで最もアクティブなボットとしてランクされているにもかかわらず、出版者は他のクローラーと比較してrobots.txtファイルでGooglebotを不許可またはブロックする可能性がはるかに低いです。これは、検索を通じて自社コンテンツへの人的トラフィック、ひいては広告収入を駆動する上でのその重要性による可能性が高いです。
以下に示すように、二重目的のGooglebotを完全に明示的に不許可とするウェブサイトはほとんどなく、このボットが検索参照を通じたトラフィック駆動においてどれほど重要であるかを反映しています。(部分的な不許可は、多くの場合、ログインエンドポイントなど、検索エンジン最適化(SEO)に関係ないウェブサイトの特定の部分に影響を与えることに注意してください。)
Robots.txtは単にクローリングの設定を表現することを可能にするだけで、執行メカニズムではありません。出版者は「良いボット」がそれに従うことに依存しています。自社サイトへのクローラーアクセスをより効果的に管理し、特定のボットの遵守状況とは独立して管理するために、出版者は特定のルールでWebアプリケーションファイアウォール(WAF)を設定し、技術的に望ましくないクローラーが自社サイトにアクセスすることを防ぐことができます。上記のrobots.txtと同じ論理に従うと、ウェブサイトは主に他のAIクローラーをブロックし、Googlebotはブロックしないと予想されます。
原文を表示
Google’s AI advantage: why crawler separation is the only path to a fair Internet
Maria Palmieri
Sebastian Hufnagel
Earlier this week, the UK’s Competition and Markets Authority (CMA) opened its consultation on a package of proposed conduct requirements for Google. The consultation invites comments on the proposed requirements before the CMA imposes any final measures. These new rules aim to address the lack of choice and transparency that publishers (broadly defined as “any party that makes content available on the web”) face over how Google uses search to fuel its generative AI services and features. These are the first consultations on conduct requirements launched under the digital markets competition regime in the UK.
We welcome the CMA’s recognition that publishers need a fairer deal and believe the proposed rules are a step into the right direction. Publishers should be entitled to have access to tools that enable them to control the inclusion of their content in generative AI services, and AI companies should have a level playing field on which to compete.
But we believe the CMA has not gone far enough and should do more to safeguard the UK’s creative sector and foster healthy competition in the market for generative and agentic AI.
CMA designation of Google as having Strategic Market Status
In January 2025, the UK’s regulatory landscape underwent a significant legal shift with the implementation of the Digital Markets, Competition and Consumers Act 2024 (DMCC). Rather than relying on antitrust investigations to address risks to competition, the CMA can now designate firms as having Strategic Market Status (SMS) when they hold substantial, entrenched market power. This designation allows for targeted CMA interventions in digital markets, such as imposing detailed conduct requirements, to improve competition.
In October 2025, the CMA designated Google as having SMS in general search and search advertising, given its 90 percent share of the search market in the UK. Crucially, this designation encompasses AI Overviews and AI Mode, with the CMA now having the authority to impose conduct requirements on Google’s search ecosystem. Final requirements imposed by the CMA are not merely suggestions but legally enforceable rules that can relate specifically to AI crawling with significant sanctions to ensure Google operates fairly.
Publishers need a meaningful way to opt out of Google’s use of their content for generative AI
The CMA’s designation could not be more timely. As we’ve said before, we are indisputably in a time when the Internet needs clear “rules of the road” for AI crawling behavior.
As the CMA rightly states, “publishers have no realistic option but to allow their content to be crawled for Google’s general search because of the market power Google holds in general search. However, Google currently uses that content in both its search generative AI features and in its broader generative AI services.”
In other words: the same content that Google scrapes for search indexing is also used for inference/grounding purposes, like AI Overviews and AI Mode, which rely on fetching live information from the Internet in response to real-time user queries. And that creates a big problem for publishers—and for competition.
Because publishers cannot afford to disallow or block Googlebot, Google’s search crawler, on their website, they have to accept that their content will be used in generative AI applications such as AI Overviews and AI Mode within Google Search that return very little, if any, traffic to their websites. This undermines the ad-supported business models that have sustained digital publishing for decades, given the critical role of Google Search in driving human traffic to online advertising. It also means that Google’s generative AI applications enter into direct competition with publishers by reproducing their content, most often without attribution or compensation.
Publishers’ reluctance to block Google because of its dominance in search gives Google an unfair competitive advantage in the market for generative and agentic AI. Unlike other AI bot operators, Google can use its search crawler to gather data for a variety of AI functions with little fear that its access will be restricted. It has minimal incentive to pay publishers for that data, which it is already getting for free.
This prevents the emergence of a well-functioning marketplace where AI developers negotiate fair value for content. Instead, other AI companies are disincentivized from coming to the table, as they are structurally disadvantaged by a system that allows one dominant player to bypass compensation entirely. As the CMA itself recognizes, "[b]y not providing sufficient control over how this content is used, Google can limit the ability of publishers to monetise their content, while accessing content for AI-generated results in a way that its competitors cannot match”.
Google’s advantage
Cloudflare data validates the concern about Google’s competitive advantage. Based on our data, Googlebot sees significantly more Internet content than its closest peers.
Over an observed period of two months, Googlebot successfully accessed individual pages almost two times more than ClaudeBot and GPTBot, three times more than Meta-ExternalAgent, and more than three times more than Bingbot. The difference was even more extreme for other popular AI crawlers: for instance, Googlebot saw 167 times more unique pages than PerplexityBot. Out of the sampled unique URLs using our network that we observed over the last two months, Googlebot crawled roughly 8%.
In rounded multiple terms, Googlebot sees:
vs. ~1.70x the amount of unique URLs seen by ClaudeBot;
vs. ~1.76x the amount of unique URLs seen by GPTBot;
vs. ~2.99x the amount of unique URLs by Meta-ExternalAgent;
vs. ~3.26x the amount of unique URLs seen by Bingbot;
vs. ~5.09x the amount of unique URLs seen by Amazonbot;
vs. ~14.87x the amount of unique URLs seen by Applebot;
vs. ~23.73x the amount of unique URLs seen by Bytespider;
vs. ~166.98x the amount of unique URLs seen by PerplexityBot;
vs. ~714.48x the amount of unique URLs seen by CCBot; and
vs: ~1801.97x the amount of unique URLs seen by archive.org_bot.
Googlebot also stands out in other Cloudflare datasets.
Even though it ranks as the most active bot by overall traffic, publishers are far less likely to disallow or block Googlebot in their robots.txt file compared to other crawlers. This is likely due to its importance in driving human traffic to their content—and, as a result, ad revenue—through search.
As shown below, almost no website explicitly disallows the dual-purpose Googlebot in full, reflecting how important this bot is to driving traffic via search referrals. (Note that partial disallows often impact certain parts of a website that are irrelevant for search engine optimization, or SEO, such as login endpoints.)
Robots.txt merely allows the expression of crawling preferences; it is not an enforcement mechanism. Publishers rely on “good bots” to comply. To manage crawler access to their sites more effectively—and independently of a given bot’s compliance—publishers can set up a Web Application Firewall (WAF) with specific rules, technically preventing undesired crawlers from accessing their sites. Following the same logic as with robots.txt above, we would expect websites to block mostly other AI crawlers but not Googlebot.
Indeed, when comparing the numbers for customers using AI Crawl Control, Cloudflare’s own AI crawler blocking tool that is integrated in our Application Security suite, between July 2025 and January 2026, one can see that the number of websites actively blocking other popular AI crawlers (e.g., GPTBot, Claudebot), was nearly seven times as high as the number of websites that blocked Googlebot and Bingbot. (Like Googlebot, Bingbot combines search and AI crawling and drives traffic to these sites, but given its small market share in search, its impact is less significant.)
So we agree with the CMA on the problem statement. But how can publishers be enabled to effectively opt out of Google using their content for its generative AI applications? We share the CMA’s conclusion that “in order to be able to make meaningful decisions about how Google uses their Search Content, (...) publishers need the ability effectively to opt their Search Content out of both Google’s search generative AI features and Google’s broader generative AI services.”
But we’re concerned that the CMA’s proposal is insufficient.
CMA’s proposed publisher conduct requirements
On January 28, 2026, the CMA published four sets of proposed conduct requirements for Google, including conduct requirements related to publishers. According to the CMA, the proposed publisher rules are designed to address concerns that publishers (1) lack sufficient choice over how Google uses their content in its AI-generated responses, (2) have limited transparency into Google’s use of that content, and (3) do not get effective attribution for Google’s use of their content. The CMA recognized the importance of these concerns because of the role that Google search plays in finding content online.
The conduct requirements would mandate Google grant publishers "meaningful and effective" control over whether their content is used for AI features, like AI Overviews. Google would be prohibited from taking any action that negatively impacts the effectiveness of those control options, such as intentionally downranking the content in search.
To support informed decisionmaking, the CMA proposal also requires Google to increase transparency, by publishing clear documentation on how it uses crawled content for generative AI and on exactly what its various publisher controls cover in practice. Finally, the proposal would require Google to ensure effective attribution of publisher content and to provide publishers with detailed, disaggregated engagement data—including specific metrics for impressions, clicks, and "click quality"—to help them evaluate the commercial value of allowing their content to be used in AI-generated search summaries.
The CMA’s proposed remedies are insufficient
Although we support the CMA’s efforts to improve options for publishers, we are concerned that the proposed requirements do not solve the underlying issue of promoting fair, transparent choice over how their content is used by Google. Publishers are effectively forced to use Google’s proprietary opt-out mechanisms, tied specifically to the Google platform and under the conditions set by Google, rather than granting them direct, autonomous control. A framework where the platform dictates the rules, manages the technical controls, and defines the scope of application does not offer “effective control” to content creators or encourage competitive innovation in the market. Instead, it reinforces a state of permanent dependency.
Such a framework also reduces choice for publishers. Creating new opt-out controls makes it impossible for publishers to choose to use external tools to block Googlebot from accessing their content without jeopardizing their appearance in Search results. Instead, under the current proposal, content creators will still have to allow Googlebot to scrape their websites, with no enforcement mechanisms to deploy and limited visibility available if Google does not respect their signalled preferences
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み