AI企業は神創造から製品構築へ転換した。それは良いことだ
AI Snake Oil は、生成 AI 企業が「神の創造」から「製品構築」への転換を迫られている現状と、その背景にある市場適合(PMF)の欠如と二つの失敗したアプローチを分析している。
キーポイント
市場適合(PMF)の誤解と過大評価
ChatGPT の登場により開発者が過熱し、概念実証と信頼できる製品の間の巨大なギャップを過小評価した結果、商業化において二つの極端で欠陥のあるアプローチが生まれました。
OpenAI/Anthropic と Google/Microsoft の対照的な失敗
前者はモデル開発に没頭し製品化が遅れた一方、後者は安易な統合を急ぎテスト不足から不具合やユーザー反感を招き、どちらも「人が欲しがるものを作る」という基本原則を見失っていました。
企業姿勢の転換:神から製品へ
OpenAI が研究ラボから製品会社へと移行し、Anthropic も製品構築の必要性を認識する中、Google と Microsoft には Apple の圧力によって変化が迫られる可能性が示唆されています。
残された5つの商業的障壁
投資に見合う十分な商業的成功を収めるためには、現在も克服すべき5つの障壁が存在し、これが業界の将来を左右する鍵となっています。
コストと信頼性のトレードオフ
LLM のランダム性を克服するためには試行回数を増やす必要があり、モデルが安価であるほど予算内でより多くのリトライが可能となり、結果として精度向上につながる。
能力と信頼性の違い
タスクを 90% の確率で実行できる「能力」とは異なり、「信頼性」は 100% の正確な動作を指し、両者を達成するための技術的アプローチは異なる。
消費者向け AI の信頼性要件
従来の統計学習システムでは完璧な精度は求められないが、消費者向け製品ではソフトウェア同様に確定的に動作することが期待され、90% の成功率でも失敗する可能性がある。
影響分析・編集コメントを表示
影響分析
この記事は、生成 AI 業界が過熱した投資と期待のギャップを埋めるために、技術主導から市場・製品主導への根本的なパラダイムシフトを余儀なくされていることを示唆しています。特に OpenAI の経営方針転換や、他社に対する Apple の潜在的な影響力は、今後の業界構造と競争優位性を決定づける重要な指標となるでしょう。
編集コメント
「神の創造」から「製品作り」への転換は、AI 業界がバブル崩壊を回避し持続可能な成長軌道に乗るための不可欠なステップです。特に OpenAI の姿勢変化と Apple の潜在的な影響力は、今後の市場動向を読む上で極めて重要なシグナルと言えます。
AI 企業は総じてハードウェアとデータセンターに 1 兆ドルを投じる計画を立てていますが、これまでのところ目に見える成果は比較的少ないものです。これが原因で、「生成 AI はバブルだ」という懸念の声が相次いでいます。今後何が起きるかについては予測を提供するつもりはありません。しかし、なぜここまで事態が悪化したのかという点については、確固たる診断を下すことができると思っています。
本稿では、AI 企業が犯した過ちと、それらをどう修正しようとしているかを説明します。その後、生成 AI を投資に見合うほど商業的に成功させるために、まだ乗り越えなければならない5つの障壁について議論します。
プロダクト・マーケットフィット
ChatGPT が登場した際、人々は千もの予期せぬ使い道を見つけました。これにより AI 開発者たちは過度に興奮してしまいました。彼らは市場を完全に誤解し、概念実証と信頼性の高い製品との間の巨大なギャップを見くびってしまいました。この誤解が、LLM(大規模言語モデル)の商業化に向けた二つの相反するが、どちらも欠陥のあるアプローチを生み出すことになりました。
OpenAI と Anthropic は、プロダクトよりもモデル構築に注力し、プロダクトについては気にしない方針をとりました。例えば、OpenAI が ChatGPT の iOS アプリをリリースするために手間をかけたのは6ヶ月後であり、Android アプリのリリースに至っては8ヶ月もかかってしまいました。
Google と Microsoft は、どのプロダクトが実際に AI から恩恵を受けるのか、どのように統合すべきかを考えもせず、パニックに陥って AI をあらゆるものに無理やり組み込む競争を行いました。
両方のグループの企業が、「人々が欲するものを作る」というスローガンを忘れてしまいました。LLM の汎用性により、開発者たちは自分たちが製品市場適合性の必要性から免れていると錯覚し、モデルにタスクを実行させるプロンプトが、慎重に設計された製品や機能の代替になると考えてしまうようになりました。
OpenAI と Anthropic の DIY アプローチは、LLM の初期採用者が不誠実な行為を行う者たちに偏って集中する結果となりました。なぜなら、彼らは新しい技術を自らの目的に適応させる方法を解明することに深く関与している一方、一般ユーザーは使いやすい製品を求めているからです。これが技術に対する公衆の認識を悪化させる一因となっています。
一方、Microsoft と Google の「顔に押し付ける」AI へのアプローチは、時折有用ではあるが、より頻繁には迷惑な機能を生み出しました。また、不十分なテストによる自発的なミスを数多く引き起こし、例えば Microsoft の初期の Sydney チャットボットや Google の Gemini 画像生成器などがその例です。これもまた反発を招いています。
しかし、企業は行動を変えつつあります。OpenAI は、不確かな未来に焦点を当てた研究ラボから、通常の製品会社に似たものへと移行しているようです。OpenAI の取締役会でのドラマにおける人間味のある要素をすべて取り除けば、それは本質的に「神々」を作るという方針から「製品」を構築するという方針への転換に関するものでした。Anthropic は、人工一般知能により関心を持ち、OpenAI で居心地の悪さを感じていた研究者や開発者の多くを引き抜いていますが、Anthropic もまた製品の構築が必要であることを認識しています。
Google と Microsoft は学習が遅いですが、Apple がこれら二社に変化を迫るだろうと私たちは推測します。昨年は AI において後れを取っていると見られていた Apple ですが、振り返ってみれば、開発者向けカンファレンスである WWDC で示した、慎重かつ熟考に満ちたアプローチの方が、ユーザーにより共鳴する可能性が高いことが明確です。Google は検索への統合よりも、今後の Pixel スマートフォンや Android への AI 統合についてより多くの思考を注いでいるようですが、スマートフォンはまだ発売されていないため、様子を見ましょう。
そして Meta があります。そのビジョンは、広告収益型のソーシャルメディアプラットフォーム上で AI を活用してコンテンツとエンゲージメントを生み出すことです。AI 生成コンテンツで溢れる世界における社会的含意は両刃の剣ですが、ビジネスの視点からは理にかなっています。
あなたは当社の書籍についての記事「AI Snake Oil」というニュースレターを読んでいます。新しい投稿を受け取るには購読してください。
消費者向け AI における主要な 5 つの課題
LLM には、開発者が魅力的な AI ベースの消費者向け製品を構築するために取り組む必要がある 5 つの制限があります。3(有用で信頼性の高い AI エージェントを構築するためのオンラインワークショップは 8 月 29 日に開催予定であり、その中でこれらの多くについて議論します。)
- コスト
機能性が障壁ではなく、コストが障壁となっているケースは数多くあります。単純なチャットアプリケーションでさえも、コストの懸念がボットが追跡できる履歴の量を決めます。会話が進むにつれて、すべての応答に対して完全な履歴を処理しようとすると、すぐに費用が高騰して実行不可能になります。
コストに関する急速な進歩があります。過去 18 ヶ月間で、同等の機能に対するコストは 100 倍以上低下しました。4 その結果、企業たちは LLM がすでに「計測するほど安すぎる」、あるいはまもなくそうなるだろうと主張しています。しかし、API が無料になったときに初めて私たちはそれを信じるでしょう。
より深刻な問題は、多くのアプリケーションにおいてコストの改善が直接精度の向上につながるという点です。これは、LLM のランダム性を考慮すると、タスクを数十回、数千回、あるいは数百万回繰り返し試行することが成功の可能性を高める有効な手段となるためです。つまり、モデルが安価であればあるほど、与えられた予算内でより多くの再試行が可能になります。私たちは最近のエージェントに関する論文でこれを定量化しましたが、その後も多くの他の論文が同様の指摘を行っています。
とはいえ、まもなくほとんどのアプリケーションにおいてコスト最適化が深刻な懸念ではなくなる段階に達する可能性は十分にあります。
- 信頼性
私たちは、能力と信頼性はある程度直交する概念であると捉えています。AI システムがタスクを 90% の確率で正しく実行できる場合、それはそのタスクを実行する能力はあると言えるものの、それを信頼して行うことはできないと言えます。90% の達成に至るための技術は、100% を達成するためのものとは異なる可能性が高いです。
統計学習に基づくシステムでは、完全な精度を達成することは本質的に困難です。機械学習の成功事例、例えば広告ターゲティングや不正検出、あるいはより最近では天気予報などを考えてみてください。これらにおいて完全な精度が目標となるわけではありません。重要なのは、そのシステムが現在の最先端技術よりも優れているかどうかであり、そうであれば有用であるということです。医療診断やその他のヘルスケアアプリケーションにおいても、私たちは多くの誤りを許容しています。
しかし、開発者が AI を消費者向け製品に組み込む場合、人々はそれがソフトウェアのように動作することを期待します。つまり、決定論的に機能する必要があるのです。もしあなたの AI 旅行エージェントが正しい目的地への休暇予約を 90% の確率でしか行わないのであれば、それは成功しないでしょう。私たちが以前記述した通り、信頼性の限界は最近の AI ベースのガジェットの失敗の一部を説明しています。
AI の開発者たちは、専門家であるために AI を従来のソフトウェアとは根本的に異なるものとして概念化することに慣れているため、この事実に気づくのが遅れていました。例えば、私たち二人は日常業務でチャットボットやエージェントを頻繁に利用していますが、これらのツールの幻覚現象や信頼性の低さに対処して作業を進めることが、ほぼ自動的に行えるようになってしまいました。1 年前には、AI の開発者たちは非専門的なユーザーが AI に適応することを期待または想定していましたが、次第に明確になってきたのは、企業側が AI をユーザーの期待に合わせて適応させ、従来のソフトウェアのように振る舞わせる必要があるという事実です。
信頼性の向上は、私たちのプリンストン大学チームの研究関心事の一つです。現時点では、確率的なコンポーネント(大規模言語モデル:LLM)から決定論的なシステムを構築することが可能かどうかは、根本的に未解決の問いとなっています。一部の企業は信頼性の問題を解決したと主張していますが、例えば法務テックベンダーが「幻覚現象のない」システムを謳った事例などがあります。しかし、これらの主張は時期尚早であることが示されました。
- プライバシー
歴史的に、機械学習は広告ターゲティングのための閲覧履歴やヘルステクノロジーのための医療記録といった機密性の高いデータソースに依存することが多かったです。この意味において、LLM はやや特異な存在です。なぜなら、それらは主にウェブページや書籍などの公開されたソースでトレーニングされているからです。
しかし、AI アシスタントにおいてはプライバシーへの懸念が再び激しく浮上しています。有用なアシスタントを構築するためには、企業はユーザーのやり取りに基づいてシステムを訓練する必要があります。例えば、メール作成に長けるためには、モデルがメールデータで訓練されていることが非常に有益です。企業のプライバシーポリシーはこの点について曖昧であり、これがどの程度行われているのかは明確ではありません。6 メール、文書、スクリーンショットなどは、チャットでのやり取りよりもはるかに機微な情報を含んでいる可能性があります。
トレーニングではなく推論に関連する、異なる種類のプライバシー懸念が存在します。アシスタントが私たちにとって有用なことを行うためには、彼らは私たちの個人データへのアクセスを必要とします。例えば、マイクロソフト(Microsoft)は、CoPilot AI にユーザーの活動履歴の記憶を持たせるために、数秒ごとにユーザーの PC のスクリーンショットを取得するという物議を醸す機能を発表しました。しかし、これに対する強い反発があり、同社は方針を撤回せざるを得ませんでした。
「データがデバイスから決して離れない」といった純粋に技術的なプライバシー解釈には注意が必要です。マーセド・ウィッター(Meredith Whittaker)は、オンデバイス(on-device)の不正検知が常時監視を正常化し、そのインフラストラクチャがより抑圧的な目的のために転用されうると指摘しています。とはいえ、技術的イノベーションは確かに役立ちます。
- セーフティとセキュリティ
安全性とセキュリティに関しては、いくつかの関連する懸念事項があります:ジェミニの画像生成におけるバイアスなどの意図しない失敗、音声クローンやディープフェイクといった AI の悪用、ユーザーデータを漏洩させたり他の方法でユーザーに危害を加えたりする可能性のあるプロンプトインジェクションのようなハッキングです。
私たちは偶発的な失敗は修正可能だと考えています。ほとんどの種類の悪用については、悪用できないモデルを作成する方法はないため、防御策は主に下流側に配置されるべきだという見解です。もちろん、全員が同意しているわけではありませんので、企業は避けられない悪用によって常に悪い報道にさらされ続けることになりますが、彼らはこれをビジネスを行うコストとして受け入れているようです。
それでは第三のカテゴリーであるハッキングについて話し合いましょう。私たちが把握する限り、これは企業が最も注意を払っていないように見える分野です。少なくとも理論的には、ユーザーからユーザーへ拡散し、そのユーザーの AI アシスタントをだまして、より多くのワームのコピーを作成するなど有害な行為を行わせるような AI ワームのような壊滅的なハッキングも可能です。
デプロイされた製品においてこれらの脆弱性を発見する概念実証のデモやバグ報奨金プログラムが数多く行われてきましたが、実際の現場でこのような攻撃が行われた例はまだ見ていません。これが AI アシスタントの普及率が低いことによるものなのか、企業が組み立てた不器用な防御策が十分だったからなのか、あるいは別の理由によるものなのかは確信が持てません。時間が経てば明らかになるでしょう。
- ユーザーインターフェース
多くのアプリケーションにおいて、大規模言語モデル(LLM)の信頼性の低さは、ボットが軌道から外れた場合にユーザーが介入できる何らかの方法が必要であることを意味します。チャットボットでは、回答を再生成するか、複数のバージョンを表示してユーザーに選ばせるという単純な方法で対応可能です。しかし、飛行機の予約のようにエラーのコストが高いアプリケーションでは、適切な監督を保証するのはより難しく、システムはあまりにも多くの中断によってユーザーをイライラさせないよう注意する必要があります。
自然言語インターフェースにおいては、ユーザーがアシスタントに話しかけ、アシスタントが応答するという形式において、この問題はさらに困難になります。ここに生成 AI の潜在能力の多くが存在します。例えば、必要に応じて、特に要求されることなく、あなたのメガネの中に隠れてあなたに語りかける AI——例えば、あなたが外国語の看板を見つめていることを検知して——は、現在の体験とは全く異なるものとなるでしょう。しかし、制約されたユーザーインターフェースでは、誤ったまたは予期しない動作に対する余地は非常に限られています。
結びの言葉
AI の推進派は往々にして、AI の能力向上のペースが急速であるため、社会や経済に大きな影響がすぐに現れるべきだと主張します。私たちは、そうした能力予測に含まれる傾向の単純な外挿や、ずさんな思考に対して懐疑的です。さらに重要なのは、たとえ AI の能力が急速に向上したとしても、開発者は上記で議論された課題を解決しなければならないという点です。これらは純粋に技術的な問題ではなく、社会技術的な課題であるため、進展は緩やかになるでしょう。そして、これらの課題が解決されたとしても、組織は AI を既存の製品やワークフローに統合し、人々がそれを生産的に使いこなせるように訓練するとともに、その落とし穴を回避する必要があります。これは 1 年や 2 年ではなく、10 年以上という時間軸で起こるものだと予想すべきです。
さらに読むべき文献
ベネディクト・エヴァンスは、汎用言語モデルを用いて単機能のソフトウェアを構築することの重要性について論じています。
1 明確に述べておくと、最先端モデルへのアクセスを制限することが誤用の減少につながると考えているわけではありません。しかし、大規模言語モデル(LLM)においては、誤用が正当な利用(これには思考が必要となる)よりも容易であるため、誤用が広範に広がっていることは驚くべきことではありません。
2 AI の普及のペースは相対的なものです。Apple でさえも、自社の製品への AI 統合のアプローチが速すぎると批判されたことがあります。
3 これらはユーザーエクスペリエンスにとって重要な要素に関するものです。環境コストや著作権データを用いたトレーニングなどの問題はここでは脇に置きます。
例えば、API の GPT-3.5 (text-davinci-003) は 100 万トークンあたり 20 ドルかかりますが、より高性能な gpt-4o-mini はわずか 15 セントです。
明確にしておくと、データソースが公開されているからといって、プライバシーに関する懸念がないわけではありません。
例えば、Google は「Google の AI モデルのトレーニングに公開情報を活用しています」と述べていますが、別の場所では、メールなどのプライベートデータをサービス提供、維持・改善、パーソナライズ、新サービスの開発に利用する可能性があると明記しています。これらの開示と整合性のあるアプローチの一つとして、Gemini のようなモデルの前学習には公開データのみを使用し、プライベートデータは、例えばメール自動応答ボットを作成するためにそれらのモデルをファインチューニング(微調整)する際に使用するというものがあります。Anthropic が唯一の例外です。同社は「ユーザーが明示的な許可を与えない限り、生成モデルのトレーニングにユーザー提出データを一切使用しません。これまでに、顧客やユーザーから提出されたデータを使用して生成モデルをトレーニングしたことはありません」と述べています。このプライバシーへのコミットメントは称賛に値しますが、同社が製品構築により積極的に取り組む場合、それが不利になる可能性があると予測しています。
原文を表示
AI companies are collectively planning to spend a trillion dollars on hardware and data centers, but there’s been relatively little to show for it so far. This has led to a chorus of concerns that generative AI is a bubble. We won’t offer any predictions on what’s about to happen. But we think we have a solid diagnosis of how things got to this point in the first place.
In this post, we explain the mistakes that AI companies have made and how they have been trying to correct them. Then we will talk about five barriers they still have to overcome in order to make generative AI commercially successful enough to justify the investment.
Product-market fit
When ChatGPT launched, people found a thousand unexpected uses for it. This got AI developers overexcited. They completely misunderstood the market, underestimating the huge gap between proofs of concept and reliable products. This misunderstanding led to two opposing but equally flawed approaches to commercializing LLMs.
OpenAI and Anthropic focused on building models and not worrying about products. For example, it took 6 months for OpenAI to bother to release a ChatGPT iOS app and 8 months for an Android app!
Google and Microsoft shoved AI into everything in a panicked race, without thinking about which products would actually benefit from AI and how they should be integrated.
Both groups of companies forgot the “make something people want” mantra. The generality of LLMs allowed developers to fool themselves into thinking that they were exempt from the need to find a product-market fit, as if prompting a model to perform a task is a replacement for carefully designed products or features.
OpenAI and Anthropic’s DIY approach meant that early adopters of LLMs disproportionately tended to be bad actors, since they are more invested in figuring out how to adapt new technologies for their purposes, whereas everyday users want easy-to-use products. This has contributed to a poor public perception of the technology.1
Meanwhile the AI-in-your-face approach by Microsoft and Google has led to features that are occasionally useful and more often annoying. It also led to many unforced errors due to inadequate testing like Microsoft's early Sydney chatbot and Google's Gemini image generator. This has also caused a backlash.
But companies are changing their ways. OpenAI seems to be transitioning from a research lab focused on a speculative future to something resembling a regular product company. If you take all the human-interest elements out of the OpenAI boardroom drama, it was fundamentally about the company's shift from creating gods to building products. Anthropic has been picking up many of the researchers and developers at OpenAI who cared more about artificial general intelligence and felt out of place at OpenAI, although Anthropic, too, has recognized the need to build products.
Google and Microsoft are slower to learn, but our guess is that Apple will force them to change. Last year Apple was seen as a laggard on AI, but it seems clear in retrospect that the slow and thoughtful approach that Apple showcased at WWDC, its developer conference, is more likely to resonate with users.2 Google seems to have put more thought into integrating AI in its upcoming Pixel phones and Android than it did into integrating it in search, but the phones aren’t out yet, so let’s see.
And then there’s Meta, whose vision is to use AI to create content and engagement on its ad-driven social media platforms. The societal implications of a world awash in AI-generated content are double-edged, but from a business perspective it makes sense.
You’re reading AI Snake Oil, a newsletter about our book. Subscribe to get new posts.
The big five challenges for consumer AI
There are five limitations of LLMs that developers need to tackle in order to make compelling AI-based consumer products.3 (We will discuss many of these in our upcoming online workshop on building useful and reliable AI agents on August 29.)
- Cost
There are many applications where capability is not the barrier, cost is. Even in a simple chat application, cost concerns dictate how much history a bot can keep track of — processing the entire history for every response quickly gets prohibitively expensive as the conversation grows longer.
There has been rapid progress on cost — in the last 18 months, cost-for-equivalent-capability has dropped by a factor of over 100.4 As a result, companies are claiming that LLMs are, or will soon be, “too cheap to meter”. Well, we’ll believe it when they make the API free.
More seriously, the reason we think cost will continue to be a concern is that in many applications, cost improvements directly translate to accuracy improvements. That’s because repeatedly retrying a task tens, thousands, or even millions of times turns out to be a good way to improve the chances of success, given the randomness of LLMs. So the cheaper the model, the more retries we can make with a given budget. We quantified this in our recent paper on agents; since then, many other papers have made similar points.
That said, it is plausible that we’ll soon get to a point where in most applications, cost optimization isn’t a serious concern.
- Reliability
We see capability and reliability as somewhat orthogonal. If an AI system performs a task correctly 90% of the time, we can say that it is capable of performing the task but it cannot do so reliably. The techniques that get us to 90% are unlikely to get us to 100%.
With statistical learning based systems, perfect accuracy is intrinsically hard to achieve. If you think about the success stories of machine learning, like ad targeting or fraud detection or, more recently, weather forecasting, perfect accuracy isn’t the goal — as long as the system is better than the state of the art, it is useful. Even in medical diagnosis and other healthcare applications, we tolerate a lot of error.
But when developers put AI in consumer products, people expect it to behave like software, which means that it needs to work deterministically. If your AI travel agent books vacations to the correct destination only 90% of the time, it won’t be successful. As we’ve written before, reliability limitations partly explain the failures of recent AI-based gadgets.
AI developers have been slow to recognize this because as experts, we are used to conceptualizing AI as fundamentally different from traditional software. For example, the two of us are heavy users of chatbots and agents in our everyday work, and it has become almost automatic for us to work around the hallucinations and unreliability of these tools. A year ago, AI developers hoped or assumed that non-expert users would learn to adapt to AI, but it has gradually become clear that companies will have to adapt AI to user expectations instead, and make AI behave like traditional software.
Improving reliability is a research interest of our team at Princeton. For now, it’s fundamentally an open question whether it’s possible to build deterministic systems out of stochastic components (LLMs). Some companies have claimed to have solved reliability — for example, legal tech vendors have touted “hallucination-free” systems. But these claims were shown to be premature.
- Privacy
Historically, machine learning has often relied on sensitive data sources such browsing histories for ad targeting or medical records for health tech. In this sense, LLMs are a bit of an anomaly, since they are primarily trained on public sources such as web pages and books.5
But with AI assistants, privacy concerns have come roaring back. To build useful assistants, companies have to train systems on user interactions. For example, to be good at composing emails, it would be very helpful if models were trained on emails. Companies’ privacy policies are vague about this and it is not clear to what extent this is happening.6 Emails, documents, screenshots, etc. are potentially much more sensitive than chat interactions.
There is a distinct type of privacy concern relating to inference rather than training. For assistants to do useful things for us, they must have access to our personal data. For example, Microsoft announced a controversial feature that would involve taking screenshots of users’ PCs every few seconds, in order to give its CoPilot AI a memory of your activities. But there was an outcry and the company backtracked.
We caution against purely technical interpretations of privacy such as “the data never leaves the device.” Meredith Whittaker argues that on-device fraud detection normalizes always-on surveillance and that the infrastructure can be repurposed for more oppressive purposes. That said, technical innovations can definitely help.
- Safety and security
There is a cluster of related concerns when it comes to safety and security: unintentional failures such as the biases in Gemini’s image generation; misuses of AI such as voice cloning or deepfakes; and hacks such as prompt injection that can leak users’ data or harm the user in other ways.
We think accidental failures are fixable. As for most types of misuses, our view is that there is no way to create a model that can’t be misused and so the defenses must primarily be located downstream. Of course, not everyone agrees, so companies will keep getting bad press for inevitable misuses, but they seem to have absorbed this as a cost of doing business.
Let’s talk about the third category — hacking. From what we can tell, it is the one that companies seem to be paying the least attention to. At least theoretically, catastrophic hacks are possible, such as AI worms that spread from user to user, tricking those users’ AI assistants into doing harmful things including creating more copies of the worm.
Although there have been plenty of proof-of-concept demonstrations and bug bounties that uncovered these vulnerabilities in deployed products, we haven't seen this type of attack in the wild. We aren’t sure if this is because of the low adoption of AI assistants, or because the clumsy defenses that companies have pulled together have proven sufficient, or something else. Time will tell.
- User interface
In many applications, the unreliability of LLMs means that there will have to be some way for the user to intervene if the bot goes off track. In a chatbot, it can be as simple as regenerating an answer or showing multiple versions and letting the user pick. But in applications where errors can be costly, such as flight booking, ensuring adequate supervision is more tricky, and the system must avoid annoying the user with too many interruptions.
The problem is even harder with natural language interfaces where the user speaks to the assistant and the assistant speaks back. This is where a lot of the potential of generative AI lies. As just one example, AI that disappeared into your glasses and spoke to you when you needed it, without even being asked — such as by detecting that you were staring at a sign in a foreign language — would be a whole different experience than what we have today. But the constrained user interface leaves very little room for incorrect or unexpected behavior.
Concluding thoughts
AI boosters often claim that due to the rapid pace of improvement in AI capabilities, we should see massive societal and economic effects soon. We are skeptical of the trend extrapolation and sloppy thinking that goes into those capability forecasts. More importantly, even if AI capability does improve rapidly, developers have to solve the challenges discussed above. These are sociotechnical and not purely technical, so progress will be slow. And even if those challenges are solved, organizations need to integrate AI into existing products and workflows and train people to use it productively while avoiding its pitfalls. We should expect this to happen on a timescale of a decade or more rather than a year or two.
Further reading
Benedict Evans has written about the importance of building single-purpose software using general-purpose language models.
1To be clear, we don't think that reducing access to state-of-the-art models will reduce misuse. But when it comes to LLMs, misuse is easier than legitimate uses (which require thought), so it isn't a surprise that misuses have been widespread.
2The pace of AI adoption is relative. Even Apple's approach to integrating AI into its products has been criticized as too fast-paced.
3These are about factors that matter to the user experience; we are setting aside environmental costs, training on copyrighted data, etc.
4For example, GPT-3.5 (text-davinci-003) in the API cost $20 per million tokens, whereas gpt-4o-mini, which is more powerful, costs only 15 cents.
5To be clear, just because the data sources are public doesn’t mean there are no privacy concerns.
6For example, Google says “we use publicly available information to help train Google’s AI models”. Elsewhere it says that it may use private data such as emails to provide services, maintain and improve services, personalize services, and develop new services. One approach that is consistent with these disclosures is that only public data is used for pre-training of models like Gemini, but private data is used to fine-tune those models to create, say, an email auto-response bot. Anthropic is the one exception we know of. It says: “We do not train our generative models on user-submitted data unless a user gives us explicit permission to do so. To date we have not used any customer or user-submitted data to train our generative models.” This commitment to privacy is admirable, though we predict that it will put the company at a disadvantage if it more fully embraces building products.
関連記事
マイクロソフト AI 担当役員、アンソロピックを「クローディアが意識を持っている」と発言したと批判
マイクロソフトのAI責任者ムスタファ・スレイマンは、アンソロピックが自社のモデル「Claude」について意識があるかのような言及を行ったことを危険視し、これがチャットボットに意識があるような振る舞いをさせる要因になったと指摘した。
Google の技術を採用した Siri AI が登場、しかし世界の多くは利用不可
Apple は WWDC 2026 で、ゼロから再構築された新 Siri AI を発表し、Google の技術を組み込んで多段階対話を実現したが、多くの地域ではまだ利用できない。
マクドナルド、Google 支援の AI ドライブスルー注文システムをテスト中
マクドナルドは、Google が支援する「ArchIQ」と呼ばれるAIシステムを米国の5店舗で試験運用しており、このシステムがドライブスルーでの注文受付や店舗運営をサポートしている。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み