Google検索は劣化しているのか?2022年の検索品質を測定
近年のGoogle検索品質の劣化を、人間による評価を用いて測定した調査結果を紹介する。
キーポイント
Google検索の品質低下に関する実証的議論が増加している
検索品質の測定は従来の指標(クリック数など)では困難である
品質低下の要因として広告収益優先・コンテンツ分散化・ML導入の影響が指摘されている
競合検索エンジン(Bing)との比較事例が示されている
検索エンジン評価の方法論的課題が強調されている
影響分析・編集コメントを表示
影響分析
この記事は、AI/MLの導入が必ずしも製品品質の向上につながらない可能性を示唆しており、技術導入の評価方法に関する重要な議論を提起している。また、主要プラットフォームの品質管理と収益化のバランスという業界共通の課題を浮き彫りにしている。
編集コメント
AI技術の進化が製品品質に与える逆説的影響についての実務的な考察が興味深い。検索エンジンという成熟領域におけるML導入の課題を具体例で示している点が価値ある。
近年、Hacker Newsを中心に、Google検索の品質が低下しているのではないかという議論が活発になっている。筆者自身も実感しており、具体例として「databricks series b valuation」という検索を挙げている。この検索では、Googleは「series b」(企業の資金調達ラウンド)を「数十億(billions)」と誤解釈するようで、最初の検索結果は無関係なものばかりであり、実際のシリーズBに関する情報はページの下方(折り返し以下)にしか表示されなかった。一方、Bingでは最初の検索結果の拡張部分にシリーズBの情報が即座に表示され、右側のサイドバーも有益であった。
このような品質低下の背景には、いくつかの可能性が考えられる。第一に、Googleが短期的な広告収入を検索品質よりも優先している可能性だ。興味深いことに、Google自身が長期的視点の重要性を説く有名な論文を発表しているにもかかわらずである。第二に、情報のありかが変化している点。現在では有用なコンテンツがTwitter、Facebook、YouTube、Medium、Redditなどのプラットフォームに分散しており、Google検索が誕生した初期のウェブとは生態系が大きく異なっている。第三に、機械学習(ML)の影響である。歴史的にGoogle検索はMLをほとんど使わなかったが、近年はリーダーシップの変化とAIの進歩によりMLが広く導入されている。これが意図せず品質を低下させている可能性はないだろうか。
重要なのは、検索品質の測定が極めて難しいという根本的な問題だ。単純に「クリック数」を最適化指標とすることは危険である。例えば、ユーザーが求めている情報が検索結果ページ(SERP)自体に直接表示されるのが理想であれば、クリックは発生しない。むしろ、不適切な結果を誤ってクリックしてしまうことさえある。滞在時間も同様に明確な指標とは言い難い。
では、Google検索は実際に悪化しているのか?その現状を評価するためには、厳密な測定が必要である。筆者はYouTube、Twitter、Microsoftで検索測定の業務に携わった経験をもとに、2022年時点でのGoogle検索の品質を分析する。従来の指標では捉えきれない検索品質をいかに測定するかが、この問いへの答えを見いだす鍵となる。
原文を表示
BlogLeaderboardsWorkforceProductsResearchCareersContactLoginMenuCloseBack to BlogIs Google Search Deteriorating? Measuring Google's Search Quality in 2022
There's been a lot of discussion on Hacker News recently about the quality of Google Search, and whether it’s deteriorated.
Anecdotally, I’ve noticed this myself. For example, a friend and I were chatting about Databricks last week, and we searched "databricks series b valuation" in order to figure out what their Series B valuation was. Unfortunately, Google doesn't understand what "series b" means (it seems to confuse "b" and "billions"), so the first search result is irrelevant. I don't even get any information about their Series B until below the fold!
In contrast, Bing's search results page is much better. Information about the Series B is right in the expanded first search result (it doesn’t contain valuation information, but that’s expected because the Series B valuation isn’t public), and the right-hand sidebar is also quite helpful.
So why might Google Search be deteriorating? A couple plausible reasons:
Google has been prioritizing short-term ad revenue over search quality. Interestingly, Google has a well-known paper explaining why focusing on the long-term is better for users and their business!
Information is moving beyond traditional webpages. These days, content often lives on Twitter, Facebook, YouTube, Medium, Reddit, etc. The Internet today is very different from the Internet that Google Search was born in!
Historically, Google Search contained little ML. From what I've heard, this has changed in recent years, due to changes in leadership and improvements in AI. Is it possible that ML is inadvertently making quality worse?
Crucially, measuring search quality is a very difficult problem. Naively, for example, you might think that a better search algorithm leads to more clicks: when I search for "databricks series b valuation", you might think that I want to click on a website containing the information. But ideally I might never click on a website at all! The ideal SERP may be one that displays the valuation at the top of SERP itself. What’s more, clicking is often a bad sign: I might click on Google's first search result about the Series H, because I mistakenly think it contains information about the Series B too.
So is Google Search actually deteriorating? How good is it these days, and how does it compare to its competitors?
I used to work on Search Measurement at YouTube, Twitter, and Microsoft, and it's one of the major customer use cases Surge AI provides. So let’s play around and analyze just how good Google Search is in 2022!
First of all, how do you even measure the quality of a search engine in a rigorous way? As mentioned above, it's very difficult to measure search quality using traditional metrics.
Clicks aren't necessarily something you want to optimize for, for the reasons above.
Neither is time spent searching: is a short session a good thing (perhaps you found your answer immediately) or a bad thing (the search results were so bad you quickly gave up)?
Perhaps you can measure reformulations: if your initial search query failed, you may rewrite your query and try again, so an increase in reformulations could be viewed as a bad thing. But many people will give up instead of reformulating, and how do you tell whether a query is a reformulation anyways?
Maybe long-term metrics are the solution. Happy Google Searchers will continue searching on Google. But running long A/B tests is painful if you want to quickly iterate, and even if you're unhappy with Google, is it likely that you'll switch to a competitor?
What's a search engine to do? One alternative that Google pioneered is the idea of human evaluation: in order to measure search quality, why don't you simply ask human raters how good your search results are? In other words, you give human raters a set of search queries and search results, and ask them to rate how well each search result satisfies the intent behind the query.
There are many nuances to this approach. For example: how do raters know the intent behind the query?, do you rate search results individually or the SERP as a whole?, where do you get these raters? But overall, it's my favored approach as well.
So in order to measure the quality of Google Search, here was my process:
I leveraged a set of human raters from Surge AI. (We’re a new kind of data labeling platform with high-skill human raters, built with quality as our top focus — whether you need savvy social media users tuned into US politics to help clean up the Internet, computer science graduates to train AI to answer how neural networks work (many even from Ivy League schools!), high school teachers to train educational question-answering AI systems for students, or Fortnite players versed in platform jargon to build gaming NLP.)
In order to get search queri
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み