Google の AI が「Google」や他の単語のスペルも間違える理由
Google の AI 検索機能における基本的なスペルミスや文字数カウントの失敗は、大規模言語モデル(LLM)が単語を文字単位ではなくトークン単位で処理する根本的な技術的限界を示しており、ユーザー信頼への影響が懸念されている。
キーポイント
LLM の構造的なスペルミスの発生理由
AI は人間のように文字や単語を認識せず、トークン(単語、音節、文字の一部など)の集合としてテキストを処理するため、単純な文字数カウントやスペリングで致命的なエラーを起こす。
Google AI Overview の具体的な失敗事例
「Google」の P が 2 つあるという事実への回答や、「poop」の r の数、さらには「Trump」大統領の名前を「trpum」と誤記するなど、基本的な事実確認で頻繁にミスが発生している。
過去の類似問題と技術的課題の継続性
以前はオニオンや Reddit の風刺記事を引用するなどの問題があったが、今回のスペルミスは LLM の根本的なアーキテクチャに起因するため、パッチ適用だけでは解決が困難な課題である。
ユーザー信頼と製品改修のリスク
29 年の歴史を持つ Google Search に AI を中心据える大規模改修において、こうした基本的なミスが続くことは、製品の信頼性を損ない、ユーザーからの批判を招く要因となっている。
LLM のトーンベースアーキテクチャの限界
現在の大規模言語モデルは文字単位ではなくトークン(単語や語句の断片)を処理するため、スペルミスなどの細かな文字レベルの誤りを正すのが本質的に困難である。
研究者による楽観視の欠如
Google の AI 概要などトランスフォーマーアーキテクチャに基づくモデルにおいて、スペル問題を解決できる可能性について研究者たちは懐疑的であり、楽観視していない。
単語の定義に不確実性がある
言語モデルにとって「単語」とは何かという定義には曖昧さがあり、人間が完璧なトークン辞書を作成しても、モデル自体がさらに細かくチャンク化する必要があるため、完全なトークナイザーは存在しない可能性が高い。
影響分析・編集コメントを表示
影響分析
この記事は、AI システムが高度な推論能力を持ちながら基礎的な言語処理で失敗するという逆説的な現象を浮き彫りにしており、技術開発における「ブラックボックス化」のリスクと、ユーザー信頼維持の難しさを示唆しています。特に Google のような大手企業が AI を中核に据える戦略において、こうした基本的な欠陥が解消されない限り、市場からの反発や利用制限につながる可能性を示しています。
編集コメント
「AI が賢い」というイメージとは裏腹に、基礎的な言語処理において依然として脆弱性があることが浮き彫りになりました。技術の限界を理解した上で、ユーザーが AI の出力を盲信しないよう注意喚起する重要な記事です。
Google の名前に P はいくつあるか?Google によると、2 つある。
また Google の AI オーバービューは、「poop」という単語には「r」がちょうど 1 つあり、「journalism」という単語には「d」が 2 つあると述べているが、実際には j-o-u-r-n-a-d-i-s-m と誤って綴っている。Google は少なくとも米国の大統領の姓に P が 1 つあることは特定したが、それを t-r-p-u-m と誤って綴った。
Google の AI 重視型検索の大規模改修がうまくいかないことは、予言者でなくても予測できたはずだ。私たちは以前にも同じことを経験している。初めて Google が検索に AI オーバービューを追加した際、この機能は The Onion や Reddit の風刺記事 を引用し、人々に岩を食べたりピザに接着剤を塗ったりするようアドバイスしたりした。
今回は、Google が 29 年続く主力製品である検索の中心に生成 AI を据えるというコミットメントをさらに強化している最中であり、それがつまずくのは驚きではない。
「単語内の文字数カウントは LLM(大規模言語モデル)において既知の課題であり、私たちはこの特定の課題の解決に取り組んでいる」と Google は TechCrunch への電子メール声明で述べた。
これらの基本的なスペルミスは、どこか懐かしいように思えるかもしれません。チャットボットやその他のテキスト生成器を動かす人工知能の一種である大規模言語モデル(LLM)は、スペルを理解するように作られていません。企業が新しい AI モデルを発表するたびに、「strawberry」という単語に「r」が何個あるか聞いてみるべきだというのは、長年にわたる冗談になっています。これらの AI モデルは数秒でアプリをコーディングしたり、数十年間数学者たちを悩ませてきた問題を解決したりできるのに、スペルに関しては幼稚園児並みのレベルなのです。
しかし、Google の AI 概要に関する問題点は、おかしなスペルミスだけにとどまりません。Google は先週、"disregard"という単語を検索すると、あたかもその単語の辞書定義が示されるかのような結果が表示されるという問題を修正済みです。ただし、表示された定義は「了解しました。新しいプロンプトや質問があればいつでも教えてください!」というものでした。しかし、これらのスペルミスが笑いを誘い続けるのは、それらを根絶することが極めて困難だからです。
研究者たちは 以前に説明した 通り、これらの綴りの難問について質問すると、AI は文章を単語や文字で構成された言語の単位として認識していません。多くの大規模言語モデル(LLM: Large Language Model)はトランスフォーマーモデルに基づいて構築されており、このモデルはテキストをトークンに分解します。トークンは、モデルによって異なりますが、完全な単語、音節、あるいは文字そのものになり得ます。AI は人間のように「読む」のではなく、テキストを数値表現に変換し、それを文脈化することで論理的な回答を導き出そうとします。
image画像クレジット: TechCrunch
「LLM はこのトランスフォーマーアーキテクチャに基づいていますが、これは文字通りテキストを読んでいるわけではありません。プロンプトを入力すると、それはエンコーディングに変換されます」と、アルバータ大学の AI 研究者兼准教授であるマシュー・グズディアル氏は TechCrunch に語りました。「『the』という単語を見ると、『the』の意味に関する一つのエンコーディングを持っていますが、'T' や 'H'、'E' については知りません」。
Google の AI オーバービューのような LLM を支えるトークンベースのアーキテクチャは本質的に制限があり、研究者たちは綴りの問題を解決できることに対して楽観的ではありませんでした。
「言語モデルにとって『単語』とは具体的に何を指すべきかという問いを避けるのは難しいし、仮に人間のエキスパートが完璧なトークン語彙で合意したとしても、モデルはさらに細かく『チャンク(分割)』する必要があると考えるだろう」と、ノースイースタン大学で大規模言語モデルの解釈可能性を研究している博士課程学生である Sheridan Feucht は TechCrunch に語った。「この種の曖昧さゆえに、完璧なトークナイザーなど存在しないというのが私の推測だ」。
これは必ずしも研究者たちの頭を悩ませる緊急の問題ではない。なぜなら大規模言語モデル(LLM)の有用性は、スペル能力にあるわけではないからだ。しかし、これらの明白な失敗は、AI が時に見た目には理解を超えた全知全能の力のように思えるとしても、決して完璧ではないことを私たちに思い出させてくれる。その正確性を二重に確認することなく、AI の出力を盲目的に信頼してはならない。
*当記事内のリンクを通じて購入した場合、私たちは少額のコミッションを獲得する可能性があります。これは私たちの編集の独立性には影響しません。*
アマンダ・シルバリングは、テクノロジーと文化の交差点を扱うテッククリンチのシニアライターです。また、Polygon、MTV、ケンヨン・レビュー、NPR、ビジネスインサイダーなどの出版物にも寄稿しています。彼女はSF作家のイザベル・J・キムと共に、インターネット文化に関するポッドキャスト『Wow If True』の共同ホストを務めています。テッククリンチに参加する前は、草の根組織化活動家、博物館教育者、映画祭コーディネーターとして働いていました。ペンシルベニア大学で英語の学士号を取得し、ラオスでのプリンストン・イン・アジアフェローとしても活躍しました。
アマンダへの連絡や、彼女からの outreach の確認は、amanda@techcrunch.com へメールを送るか、Signal で暗号化メッセージを @amanda.100 宛てに送ることで可能です。
原文を表示
How many Ps are in Google? According to Google, there are two.
There’s also is also “exactly 1 ‘r’ in the word ‘poop’,” Google’s AI Overview says, as well as two ‘d’s in the word journalism, yet spelled it: j-o-u-r-n-a-d-i-s-m. Google did at least identify that there is one P in the last name of the U.S. president, but spelled it as t-r-p-u-m.
You didn’t need to be a prophet to predict that Google’s AI-forward Search overhaul was going to go over poorly. We’ve done this before. The first time Google added AI Overviews to Search, the feature ended up citing satirical posts from The Onion and Reddit, advising people to eat rocks and put glue on their pizza.
This time around, as Google doubles down on its commitment to make generative AI the centerpiece of its 29-year-old flagship product, it’s not surprising to see it stumble.
“Counting within words has been a known challenge for LLMs, and we’re working to fix this particular issue,” Google told TechCrunch in an emailed statement.
These basic spelling errors may seem familiar. LLMs, the kind of artificial intelligence that powers chatbots and other text-generators, are not built to understand spelling. It’s been a running joke for years that whenever a company unveils a new AI model, you should ask it how many ‘r’s are in the word strawberry. These AI models — which can code an app in seconds, or solve problems that have stumped mathematicians for decades — are about as good as a kindergartener at spelling.
Google’s AI overview woes reach beyond silly spelling mistakes though. Google already patched an issue from last week in which searching the word “disregard” would yield what looked like a dictionary definition of the word, only the definition was shown as, “Understood. Let me know whenever you have a new prompt or question!” But these spelling errors have remained amusing because they’re so difficult to quash.
As researchers have previously explained when we’ve asked about these spelling conundrums, AI doesn’t perceive sentences as units of language made up of words and letters. Many LLMs are built on transformers models, which break down text into tokens, which can be full words, syllables, or letters, depending on the model. Instead of “reading” like a human would, the AI converts the text into numerical representations of itself, which are then contextualized to help the AI come up with a logical response.

“LLMs are based on this transformer architecture, which notably is not actually reading text. What happens when you input a prompt is that it’s translated into an encoding,” Matthew Guzdial, an AI researcher and assistant professor at the University of Alberta, told TechCrunch. “When it sees the word ‘the,’ it has this one encoding of what ‘the’ means, but it does not know about ‘T,’ ‘H,’ ‘E.’”
The token-based architecture that powers LLMs like Google’s AI overview is inherently limiting, and researchers haven’t been optimistic that they can solve the spelling problem.
“It’s kind of hard to get around the question of what exactly a ‘word’ should be for a language model, and even if we got human experts to agree on a perfect token vocabulary, models would probably still find it useful to ‘chunk’ things even further,” Sheridan Feucht, a PhD student studying large language model interpretability at Northeastern University, told TechCrunch. “My guess would be that there’s no such thing as a perfect tokenizer due to this kind of fuzziness.”
This isn’t necessarily an urgent problem on researchers’ minds, since the utility of LLMs doesn’t come in their capacity to spell. But these blatant failures help us remember that AI is not perfect, even if it may sometimes seem like an all-knowing power beyond our comprehension. We cannot blindly trust AI outputs without double-checking their accuracy.
*When you purchase through links in our articles, we may earn a small commission. This doesn’t affect our editorial independence.*
Amanda Silberling is a senior writer at TechCrunch covering the intersection of technology and culture. She has also written for publications like Polygon, MTV, the Kenyon Review, NPR, and Business Insider. She is the co-host of Wow If True, a podcast about internet culture, with science fiction author Isabel J. Kim. Prior to joining TechCrunch, she worked as a grassroots organizer, museum educator, and film festival coordinator. She holds a B.A. in English from the University of Pennsylvania and served as a Princeton in Asia Fellow in Laos.
You can contact or verify outreach from Amanda by emailing amanda@techcrunch.com or via encrypted message at @amanda.100 on Signal.
関連記事
CloudWatch の SageMaker メトリクスとインサイトダッシュボードを用いた生成 AI 推論の監視・デバッグ
AWS は、大規模な生成 AI 推論エンドポイントの P99 レイテンシ急上昇などのトラブルを GPU メモリ圧力や KV キャッシュ飽和などから特定できるよう、CloudWatch に SageMaker の詳細メトリクスとインサイトダッシュボードを追加した。
[AINews] 今日特に大きな出来事はありませんでした
Latent Space は、GLM 5.2 が依然として注目されていると指摘しつつ、AIE WF 2026 の通常チケットが月曜日に完売すると発表しました。同サイト購読者向けに限定割引を提供し、参加者には Warp や Datadog などからのスポンサークレジットも付与されます。
米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず
米国政府は国家安全保障上の懸念から、アマゾンの研究者らがガードレール回避手法を発見したとして、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の販売差し止めを命じた。サイバーセキュリティ研究者らはこの措置が危険だとする公開書簡に署名し、同社も他モデルでも同様の抜け道が存在すると指摘している。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み