AI エージェントが知識労働をどう再構築するか(18 分読)
Perplexity とハーバードビジネススクールの共同研究により、AI エージェント「Computer」が知識労働の定義を再構築し、コスト削減と抽象度の高い自律的タスク実行が可能になる実証データが示された。
キーポイント
AI エージェントによる労働分担の変化
従来の対話型アシスタント(回答提示)から、エージェントは計画立案と実行を担うようになり、ユーザーは「結果」のみを指定するようになる。
Perplexity Computer の実証的効果
実環境での使用データ分析により、Computer が利用者の達成範囲(幅と深さ)を広げ、コストを下げながら専門分野を超えた価値創出を可能にしていることが示された。
知識労働の構造的変容
AI の進化により、知識労働は単なる情報検索や合成から、複雑な環境での自律的タスク実行へと移行し、抽象度の高いレベルで作業が行われるようになる。
Perplexity の製品進化の軌跡
2022 年の検索エンジン「Search」から 2025 年のブラウザエージェント「Comet」、そして 2026 年の汎用エージェントオーケストレーター「Computer」へと、自律性の段階的向上が示された。
影響分析・編集コメントを表示
影響分析
この記事は、生成 AI が単なる情報提供ツールから自律的な実行エージェントへ進化し、知識労働の根本的な生産性パラダイムを変えつつあることを示す重要な証拠を提供しています。特に、特定企業(Perplexity)の実証データに基づき、AI エージェントが専門分野の壁を越えて価値を生み出す可能性を裏付けた点は、業界全体における AI 導入戦略や人材育成の方向性に大きな影響を与えるでしょう。
編集コメント
単なる機能紹介に留まらず、学術研究と実データに基づいて AI エージェントが労働市場に与える構造的変化を分析した点で、業界関係者にとって極めて示唆に富む内容です。特に「専門分野の壁を越えた価値創出」という知見は、今後の組織再編やスキルセットの見直しにおいて重要な示唆となります。
フロンティア AI システムは、モデルの知能と実世界での有用性の間のギャップを埋めつつあります。新しいモデル、計算アーキテクチャ、そしてオーケストレーションパターンが、数ヶ月前には不可能と考えられていたタスクをこれらのシステムに実行可能にしています。
この急速なイノベーションは、ユーザーのレバレッジと主体性を増幅させることで AI ユーザーにとって恩恵をもたらしましたが、同時に技術的フロンティアと、知識労働がどのように変化しているのかという私たちの理解の間には遅れが生じています。フロンティア AI は、各職業における知識労働の本質をどのように変えるのでしょうか?また、この仕事においてどのような構造的・経済的な変革が予想されるでしょうか。
私たちは、Perplexity の利用に関する慎重な実証分析を通じて、このギャップを埋めようとしています。本日、ハーバードビジネススクールの研究者との協力のもと、実世界での展開における Perplexity Computer に関する最初の包括的な研究結果を発表します。私たちの調査結果は、Computer がユーザーが達成できることの幅と深さを、より低いコストで拡大することを示唆しています。Computer を使用するユーザーは、より多くの成果を上げ、より高い抽象レベルで作業し、専門分野の境界を越えて自分たちの職業外でも価値を引き出しています。
本記事では、私たちの研究からのハイライトを紹介します。詳細な手法と知見については、技術報告書をご覧ください。
イントロダクション
最初の主流の生成 AI システムは、ユーザーと対話する会話型アシスタントでした。これらのアシスタントは「意図」と「行動」の間に位置し、質問に答え、トレードオフを説明し、次のステップを提案します。その後、ユーザーはその回答を実際の作業に変換する必要があります:適切なツールを開き、ファイルを収集し、文書を編集し、中間出力を確認し、次に何をすべきかを決定することです。
エージェントはこの労働の分業を変えます。ユーザーは成果物を指定するだけで、システムがツールにわたる計画を立て、中間ステップを実行し、必要な場合に不足している入力を求め、完成した納品物を返します。これにより、AI の利用は「情報を検索して統合する」ことから、「自律的にタスクを計画して実行する」へとシフトします。
この流れは、Perplexity 自身の製品進化にも表れています。2022 年には Search を立ち上げ、数十億の文書にわたる検証可能な引用をサポートした回答を受け取ることでユーザーが質問できる仕組みを提供し、「回答エンジン」というカテゴリを定義しました。2025 年には Comet ブラウザを導入し、オープンウェブ上でユーザーと共に推論・行動する埋め込み型 Web エージェントを搭載しました。そして 2026 年、Computer を立ち上げました。これは汎用エージェントオーケストレーターであり、複雑な環境と長い時間軸にわたって、ユーザーが指定した目標に向かって自律的に作業を行います。
この移行は、私たちの働き方をどのように変えているのでしょうか?私たちは Search と Computer の製品から得たデータを用いてこの問いを探求し、以下の 3 つの次元に焦点を当てます。
- 自律性:同じタスクにおいて、Computer は Search と比較してどの程度自律的に作業を行うのか?
- 効率性:同じタスクにおいて、Search と比較して Computer が節約する時間と人的コストはどれほどか?
- スコープ:Computer はユーザーが取り組む仕事の種類をどのように変化させるのか?
私たちは、Computer のようなエージェントは、初期段階でのユーザーの労力(委任する目標の指定や結果の確認が必要となるため)をより多く必要とする一方で、作業単位あたりの人的労力は大幅に削減される(自律的な実行によるもの)ことを発見しました。これにより、長時間かつ多段階のワークフローにおいて特に効果的となります。その成果は、より深みがあり、かつ低コストな仕事です。Computer はユーザーの労力を手動実行から監督へとシフトさせ、専門分野内および外での達成可能な範囲を拡大します。

Expand
Computer の採用とユースケース
Computer は 2026 年 2 月 25 日にリリースされ、最初の 3 ヶ月間で急速に成長しました。
5 月 27 日時点での累積的な Computer クエリ数は、初週の合計の 84 倍に達しました。ベースラインとして、Computer ユーザーにおける累積的な Search の利用状況は初週の合計の 14 倍に達しており、これは非 Computer ユーザーにおける 12 倍の成長率よりも高い数値です。
サブスクリプションの階層、主要な検索トピック、および過去の検索強度を一致させた後でも、差分間比較分析では、Computer の採用により検索利用が増加することが示されています。Computer ユーザーは、類似した非 Computer ユーザーと比較して、1 日あたり平均 1.05 件多い検索クエリを実行しています。

Expand
各シリーズの初週を基準とした累積成長。Computer のクエリ量は、2 月 27 日から 5 月 27 日の期間中に、初週の累積合計の 84 倍に達しました。
100,000 件の Computer クエリのランダムサンプリングにおいて、「調査と分析」が最も大きなタスクカテゴリであり 25.8% を占め、次いで「ドキュメントおよびアセット作成」が 18.6% でした。観察されたタスクの構成は、複数のツールにまたがる作業を必要とするドキュメント、スプレッドシート、コードベース、ウェブサイト、ワークフローなど、生成型業務へと偏っています。
ドメイン別にみると、利用はソフトウェアおよび IT、金融・投資、マーケティングおよび営業、ビジネス運営、ヘルスケア、教育、法務、メディアに広く分布しています。

Expand
タスクカテゴリおよび専門分野ドメインにおける Computer のユースケース。調査、分析、ドキュメント作成、ソフトウェア、金融、ビジネス運営、そして個人ワークフローがすべて顕著に現れています。
より高い自律性と品質
自律性の最も直接的な指標は、ユーザーがリクエストを送信した後に人間による介入なしにシステムが稼働し続ける時間です。検索(Search)は通常数秒で応答を返しますが、コンピューター(Computer)は数分、あるいは数時間にわたって作業を継続します:検索、ブラウジング、執筆、編集、コードの実行、中間結果の確認など。
私たちは、両製品で同じタスクに挑戦したとみなせるよう、ほぼ同一の初期クエリを持つ検索セッションとコンピューターセッションを対照ペアとして使用しています。10,000組の一致するペア全体を通じて、コンピューターはセッションあたり平均して 26 分間の機械実行時間を要しますが、検索ではわずか 33 秒です。これは、実質的に同じタスクにおいて機械による作業量が 48 倍に増加したことを意味します。中央値で見ると、その差は 9 分対 14 秒、つまり 40 倍となります。ドメイン別の内訳を見ても同様のパターンが確認され、コンピューターは全 18 のドメインにおいて、機械による作業量が概ね 26~75 倍多く行われています。

Expand
一致するコンピューターセッションと検索セッションにおけるセッションあたりの機械実行時間。検索は短い応答時間の付近に集中しており、コンピューターは長時間の自律的な実行を中心としたより広い分布を示します。コンピューターの平均実行時間(26 分)は中央値(9 分)よりもはるかに高く、これは複雑で長期にわたるリクエストが長いテールを形成していることを示しています。

Expand
ドメイン別平均機械実行時間。各セッションでコンピュータは、ユーザーの操作 1 回ごとに下流の実行がトリガーされるため、単なる会話応答のみを行う場合よりもはるかに多くの作業を行います。
より長時間の自律動作が、より多くの離脱につながったわけではありません。製品の停止イベント数はほぼ同様でした:Computer セッションの 3.7% と Search セッションの 3.4% に、少なくとも 1 つのユーザー停止イベントが含まれていました。ただし、Computer はユーザー入力待ちで一時停止する頻度が高かったのです:Computer のクエリの 13% が少なくとも 1 つの「ユーザー入力待ち」ツールを呼び出したのに対し、Search では 0.3% でした。これは通常、承認の要求や確認のための質問を行うためです。これはエージェントに期待されるパターンです:ほとんどの場合自律的に進行できますが、許可を得てユーザーの意図を確認するためのチェックポイントが必要です。
また、Computer は Model Context Protocol (MCP) または Application Programming Interface (API) エンドポイントを介して、1 つのセッション内で外部ツール呼び出しをさらに多く連鎖させます。これは Search ユーザーが別々のアプリケーションで手動で行う作業に相当します。Computer セッションの 7.9% が少なくとも 1 つのコネクタ呼び出しを行いますが、Search セッションでは 1.8% です(4 倍の開き)。また、Computer はセッションあたり平均 1.19 回のコネクタ呼び出しを行う一方、Search では 0.10 回です(12 倍の比率)。つまり、Computer は単に長時間動作するだけでなく、ユーザーの接続されたサービス全体を横断してデータを取得し、アクションを実行します。
フォローアップ行動の構成も変化します。1,000 ペアからなる多ターンサンプルにおいて、タスク進展への全体的な傾向は製品間でほぼ同一(Computer のフォローアップで 52.7% 対 Search で 52.9%)ですが、ユーザーが求める内容にはシフトが生じます。Computer は初期段階でより完全な成果物を返すため、そのユーザーは明確化のための詳細掘り下げ(drill-downs)の代わりに拡張機能(extensions)を要求します(拡張機能:14.2% 対 12.5%; 詳細掘り下げ:22.0% 対 23.4%)。また、Computer のユーザーはフォローアップにおいて成果物のレビューと修正にやや多くの時間を費やしており(24.6% 対 23.6%)、Search は確認、再試行、書式変更要求といった短い指示に重点を置いています(11.6% 対 9.9%)。これらは Computer が初期実行時に組み込んでしまうものです。つまり、Search は短めの「理解して実行」ループを生み出し、Computer は長めの「レビューして拡張」ループを生み出します。
最も重要なのは、自律性の向上に伴って品質が低下しなかったことです。マッチングされた多ターンセッションにおいて、意味のある次のターンでの不満は、Computer で 1.3% 対 Search で 2.9% と、55% の減少となりました。軽微なシグナルを含むすべての不満では、Computer が 10.8% 対 Search が 16.6% です。

Expand
マッチングされた多ターンサンプルにおける次のターンでの不満シグナル。四捨五入のため、列の合計が正確に 100% にならない場合があります。
自律性による効率向上
高い自律性は、手動の人間作業を機械計算に置き換えることで、効率を向上させます。この効果を定量化するために、同じマッチングされたタスクに対して2つの設定を比較します。
- 検索+人間:検索が情報取得と統合を担当し、人間が手動で実行します。
- コンピュータ+人間:コンピュータがワークフローを実行し、人間はタスクの範囲を定義し出力を検証します。
人間が1つのタスクに要する時間を直接観察することはできないため、3 つの独立した推定値を用いて三角測量を行います。
- ツールベースの推定:Computer のツール呼び出しを「Search」と「Do」の 2 つのカテゴリに分類します。Search ツールは、すでに Search プロダクトによって処理されている情報取得と統合ステップに対応しています。Do ツールは、Search のみを使用する場合に人間が手動で実行する必要のある実行ステップを表します。その後、経験豊富な人間がこれらの Do アクションを実行するのに必要な時間を推定します。
- LLM ベースの推定:Computer セッションからのクエリを大規模言語モデル(LLM)に入力し、Search から回答を受け取るもののすべての実行ステップを手動で行う必要がある熟練プロフェッショナルに必要な時間を推定します。
- ユーザー報告ベースの推定:ドメイン横断的な active Computer ユーザー 25 名に対して半構造化インタビューを実施し、Computer 以前のワークフローと、そのワークフローが要したであろう時間を聞き出します。

Expand
ツールベース見積もりに使用されるツールの分類。「Search」ツールは、すでに Search が提供する機能を反映しているため、手動時間の請求はありません。「Do」ツールでは、人間が Search の調査結果に基づいて行動する必要があり、1 回あたりの分単位の推定値は、熟練した専門家が同等の作業を手動で行うのに要する時間を近似したものです。
ツールベースの見積もりによると、平均的な「Search + 人間」タスクには 269 分かかりますが、対応する「Computer + 人間」ワークフローでは 36 分です。これはタスク時間の 87% の削減を意味します。
タスク時間をコストに換算するため、米国労働統計局の職業別雇用・賃金統計(BLS OEWS)2025 年 5 月データ(U.S. Bureau of Labor Statistics 2026)に基づく分野別の平均時給を使用しています。モデルコストと分野固有の人件費を組み合わせることで、Computer は推定タスクコストを平均で 94% 削減します。

Expand
Search + Human と Computer + Human の比較における推定タスク時間とコスト。Search + Human のベースラインでは人件費が支配的ですが、Computer は作業の多くをモデルおよびツールの実行に移します。

Expand
コンピュータと人間の組み合わせが、検索と人間の組み合わせに対して節約する時間とコストの割合(括弧内は倍率。例:94% (16 倍) は、コンピュータ+人間の方が 94% 安いか、または 16 倍安いことを意味する)。労働コストには、米国労働統計局 (BLS) の OEWS 2025 年 5 月時点の平均時給を使用。
効率性の優位性は全 18 のドメインにわたって見られ、時間節約は 79–92%、コスト節約は 87–96% に達します。プログラミングが最も極端なケースで、検索+人間では 596 分かかるのに対し、コンピュータ+人間では 48 分で済みます。これは 92% の時間短縮であり、結果として 96% のコスト削減をもたらします。ビジネス、テクノロジー、教育、ライティングにおいても大きな成果が示されています。高賃金のドメインほど、時間の節約がより大きなコスト節約に転換される傾向があります。
この結果はどの程度頑健でしょうか? 検索+人間がコンピュータ+人間の費用と同等になるための損益分岐点を考えると、専門家はすべての手動ステップを 14–24 分(中央値 18 分)で完了させる必要があります。より保守的な仮定の下でも、コンピュータはあらゆるドメインで優位性を維持します。例えば、ツールごとの時間を 8 倍過大評価するか、コンピュータの監督時間を 12 倍過小評価した場合でも同様です。
LLM(大規模言語モデル)に基づく推計も同様の集計結果を示しています:全体の時間削減は 84%、コスト削減は 93% です。ユーザーへのインタビューでは、5 倍から 300 倍以上の速度向上という非常に幅広い結果が得られました。これはおそらく、コンピュータ導入前のユーザーベースラインに大きなばらつきがあることを反映していると考えられます。参加者全体の中央値での速度向上は 25 倍であり、時間削減率で 96% に相当します。
タスクの範囲が水平方向および垂直方向に拡大
速度とコストは、対応するタスクの一部しか捉えていません。仕事の形状もまた変化し得ます。Computer が手動実行を機械計算に置き換えるにつれ、ユーザーは異なる種類の仕事—職業の境界を越えるものや、より高い専門性を必要とするもの—に取り組むようになる可能性があります。
まず、Computer を使用する場合と Search を使用する場合で比較して、ユーザーが推定された主要な職業クラスター外で働く頻度が高まるかどうかを問います。次に、同じユーザーからの Computer と Search のクエリを、5 つのタスクレベル分類を用いて比較します。それらは、Bloom の改訂された分類法(Anderson and Krathwohl 2001)、タスク・コンテンツの伝統における抽象的作業とルーチン作業(Autor, Levy, and Murnane 2003)、O*NET 知識の幅(National Center for O*NET Development 2026)、O*NET の業務活動の幅、および Search では試みられなかった新しいタスクです。
水平方向へのシフトはデータに明確に表れています。8 つの職業クラスターから抽出した 8,000 人のユーザーをサンプルとし、すべてのクエリを対象とした結果、Computer ユーザーは主要な職業外で働く頻度が 59% であるのに対し、Search ユーザーは 50% です。最も大きな増加が見られるのは、経営・起業、デジタル技術、芸術・デザイン、医療・人的サービスです。Cross-occupation Search クエリ(他職種向け検索)はデジタル技術に集中している一方、Computer のクエリは、ユーザーが通常であれば専門家の助けを必要とするような、より多様なドメインへと業務を委譲するものです。

Expand
8 つの職業クラスターにわたる職業横断的なタスクフロー。曲線弧は各クラスターの主要な出力先を示し、線の太さはその割合に比例し、線の種類は順位を表しています。検索(Search)は、デジタルテクノロジー分野への職業横断的なフローを集中させますが、コンピューター支援(Computer)はマーケティング、管理、金融サービス、およびその他の実行系分野へとフローを広げます。
垂直方向のシフトもさらに大きくなっています。同じデュアルプロダクトユーザーから抽出した 5,000 のコンピューター支援クエリと 5,000 の検索クエリのサンプルにおいて、コンピューター支援クエリは検索クエリよりも認知的に複雑です。ブルームの改訂された分類法(Bloom's Revised Taxonomy)によると、76% のコンピューター支援クエリが高度な認知を必要とするのに対し、検索クエリでは 55% です。この差は上位レベルに集中しており、コンピューター支援クエリの 50% が「創造」レベルのタスクである一方、検索クエリでは 26% に留まります。検索には、「記憶」レベルの事実参照が大幅に多く見られます。抽象的 versus 定型タスクタイプの次元において、71% のコンピューター支援クエリが抽象的で非定型な認知を伴うのに対し、検索クエリでは 53% です。

Expand
コンピュータおよび検索クエリの認知的複雑性。コンピュータは作成レベルおよび抽象的な非定型業務へと強くシフトしています。
コンピュータのタスクも、より多くの知識領域を必要とします。平均的なコンピュータタスクでは 2.40 の O*NET 知識分野における実質的な専門性が要求されるのに対し、検索タスクでは 1.74 です(38% の増加)。コンピュータは検索に比べて、3 つ以上の知識分野を必要とする可能性が約 3 倍高く、51% 対 17% です。

Expand
クエリあたりの必要知識分野。コンピュータセッションは 2〜3 の分野に集中しており、広範な専門性を必要とする可能性が格段に高いです。
作業活動レベルでも、同じパターンが見られます。典型的なコンピュータクエリでは 2.95 の O*NET 一般化された作業活動(Generalized Work Activities)および 4.01 の中間的な作業活動(Intermediate Work Activities)に関与するのに対し、検索ではそれぞれ 2.24 と 2.87 です。これは 32% および 40% の増加を意味します。より詳細なレベルでは、コンピュータは詳細な作業活動(Detailed Work Activities)を 59% 多く、職業固有のタスク記述(Task Statements)を 60% 多く関与させます。

Expand
O*NET階層レベルごとのクエリ別タスク活動の幅。コンピュータは、中間レベル、詳細レベル、およびタスク記述レベルで分布を右側にシフトさせます。
最も示唆に富む指標は、同じユーザーにおいて「Computer」には存在するが「Search」には存在しないタスクのセットです。厳密な定義では、あるタスク記述が「Computer」に現れ、対照となる「Search」サンプルで一度も現れない場合、「Computer」クエリの23%が少なくとも1つの「Computer」固有のタスク記述に関与しています。閾値を緩和して最大5回の「Search」出現を許容すると、この割合は38%に上昇し、約41%で頭打ちになります。これらの「Computer」固有の活動は、ソフトウェアおよびウェブ開発、ドキュメント作成、データ可視化またはグラフィックスに集中しています。まさにここが自律的な実行が最も重要となる領域です:Search は説明しますが、Computer は生産します。

Expand
異なる出現閾値における、少なくとも1つの「Computer」固有のO*NET活動に関与する「Computer」クエリの割合。最も明確な分離は、微細なタスク記述レベルで現れます。
考察
職場におけるAIに関するほとんどの証拠は、アシスタント設定に焦点を当てています。この文献群は、ライティング、カスタマーサポート、コーディング、コンサルティングの強化において大きな生産性向上を示してきました(例:Noy and Zhang 2023; Brynjolfsson, Li, and Raymond 2025; Cui et al. 2026; Dell'Acqua et al. 2026)。
エージェントはユーザーの行動や下流の経済的成果を変化させます。生産環境での導入が始まり、現実世界におけるエージェントの使用状況と影響が明らかになり始めていますが、現在は主に専門的なコーディング用エージェントや初期段階のブラウザ用エージェントに焦点が当てられています(例:Sarkar 2026; McCain et al. 2026; Demirer, Musolff, and Yang 2026; Yang et al. 2025)。本研究は、汎用型エージェントオーケストレーターと対話型アシスタントに対するユーザーインタラクションを比較し、下流への影響分析をより広範な知識労働に拡張することで、この既存研究を補完し、アシスタントとエージェントに関する文献の架け橋となります。
また、単なる曝露から実現されたタスク再構成へと視点を移します。先行研究では、タスク記述や職業構造を用いてどの職種が AI に曝露されているかを推定しています(例:Eloundou et al. 2024; Felten, Raj, and Seamans 2023)、一方、使用ベースの指標は曝露と実際の導入との間のギャップを示しています(Massenkoff and McCrory 2026)。本研究では、エージェントへのアクセスによってタスク構成がどのように変化するかを記録します。
いくつかの注意点を指摘しておきます。第一に、観察期間が初期段階であり、早期採用者は AI ネイティブに偏っています。ユーザーもまた、急速に進化する製品環境の中でワークフローを積極的に実験・適応させているため、これらのパターンは時間とともに変化する可能性があります。第二に、セッションベースの一致クエリ設計では、検索に相当するものがない多くのコンピュータタスクが除外されています。セッションはタスクをセグメント化するための自然な方法を提供しますが、実際にはユーザーが常にこの構造に従うわけではないため、セッションはタスク単位に対するノイズの多い代理指標となります。第三に、効率性の推定値は、人間同等のツール使用時間と人間の監督時間の仮定に大きく依存しています。LLM による推定値やユーザーインタビューが同じ方向を示しており、損益分岐点分析および感度分析が堅牢性を示しているとはいえ、正確な数値は概算として読むべきです。関連して、LLM の分類エラーにより追加の測定ノイズが生じます。最後に、当社は Perplexity エコシステム内でのみユーザー行動を観察しており、その外部での活動は捉えていません。これにより、ユーザーの完全な業務活動やツール使用に関する視点が制限される可能性があります。
今後の展望
エージェントは既存のタスクをより迅速かつ低コストで実行可能にし、さらに重要なのは、職業の境界や専門性のレベルを超えたタスクを実行可能にすることです。
システムが検索、ブラウジング、コーディング、ファイル編集、サービス接続、そして成果物の生成をすべて行えるようになったとき、ユーザーのボトルネックは変化します。彼らはワークフローを実行する時間を減らし、目標の指定、文脈の提供、出力の確認、拡張の要求に時間を割くようになります。ユーザーはオペレーターからスーパーバイザーへと移行します。
個人レベルでは、このシフトがタスクのフロンティアを拡大し、より広範かつ深遠な業務を担うことを可能にします。組織および労働市場レベルでは、これらのミクロレベルの変化が集約される様相については未だ疑問が残っています。エージェントを備えた単一の個人が、以前は複数の役割を必要としたワークフローを完了できるのであれば、エージェントの長期的な影響は速度やコストの指標だけでは捉えきれません。むしろそれは、仕事がどのように束ねられ、役割がどのように定義され、チームがどのように構成されるかという点に現れるでしょう。
当社の手法と知見についてさらに詳しく知りたい場合は、技術報告書の全文をお読みください。
参考文献
- Anderson, Lorin W., and David R. Krathwohl. 2001. A Taxonomy for Learning, Teaching, and Assessing: A Revision of Bloom's Taxonomy of Educational Objectives. New York: Longman.
- Autor, David H., Frank Levy, and Richard J. Murnane. 2003. "The Skill Content of Recent Technological Change: An Empirical Exploration." The Quarterly Journal of Economics 118 (4): 1279–1333.
- Brynjolfsson, Erik, Danielle Li, and Lindsey R. Raymond. 2025. "Generative AI at Work." The Quarterly Journal of Economics 140 (2): 889–942.
- Cui, Zheyuan Kevin, Mert Demirer, Sonia Jaffe, Leon Musolff, Sida Peng, and Tobias Salz. 2026. "The Effects of Generative AI on High-Skilled Work: Evidence from Three Field Experiments with Software Developers." Management Science, Articles in Advance.
- Dell'Acqua, Fabrizio, Edward McFowland III, Ethan R. Mollick, Hila Lifshitz-Assaf, Katherine Kellogg, Saran Rajendran, Lisa Krayer, François Candelon, and Karim R. Lakhani. 2026. "Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of Artificial Intelligence on Knowledge Worker Productivity and Quality." Organization Science, Articles in Advance.
- Demirer, Mert, Leon Musolff, and Liyuan Yang. 2026. "Writing Code vs. Shipping Code: Productivity Effects Across Generations of AI Coding Tools." NBER Working Paper 35275.
- Eloundou, Tyna, Sam Manning, Pamela Mishkin, and Daniel Rock. 2024. "GPTs are GPTs: Labor Market Impact Potential of LLMs." Science 384 (6702): 1306–1308.
- Felten, Edward W., Manav Raj, and Robert Seamans. 2023. "Occupational Heterogeneity in Exposure to Generative AI." SSRN 4414065.
- Massenkoff, Maxim, and Peter McCrory. 2026. "Labor Market Impacts of AI: A New Measure and Early Evidence." Anthropic.
- McCain, Miles, Thomas Millar, Saffron Huang, Jake Eaton, Kunal Handa, Michael Stern, Alex Tamkin, Matt Kearney, Esin Durmus, Judy Shen, Jerry Hong, Brian Calvert, Jun Shern Chan, Francesco Mosconi, David Saunders, Tyler Neylon, Gabriel Nicholas, Sarah Pollack, Jack Clark, and Deep Ganguli. 2026. "Measuring AI Agent Autonomy in Practice." Anthropic.
- National Center for O*NET Development. 2026. O*NET 30.2 Database. U.S. Department of Labor, Employment and Training Administration.
- Noy, Shakked, and Whitney Zhang. 2023. "Experimental Evidence on the Productivity Effects of Generative Artificial Intelligence." Science 381 (6654): 187–192.
- Sarkar, Suproteem K. 2026. "AI Agents and Higher-Order Work." University of Chicago Booth School of Business.
- U.S. Bureau of Labor Statistics. 2026. "Occupational Employment and Wage Statistics: May 2025 Estimates." U.S. Department of Labor.
- Yang, Jeremy, Noah Yonack, Kate Zyskowski, Denis Yarats, Johnny Ho, and Jerry Ma. 2025. "The Adoption and Usage of AI Agents: Early Evidence from Perplexity." arXiv preprint arXiv:2512.07828.
原文を表示
Frontier AI systems are closing the gap between model intelligence and real-world utility. New models, compute architectures, and orchestration patterns are enabling these systems to accomplish tasks deemed impossible just a few months ago.
This rapid innovation has proved a boon to AI users by magnifying their leverage and agency. Yet it has also created a lag between the technological frontier and our understanding of precisely how knowledge work is evolving in response. How does frontier AI change the nature of knowledge work across professions? Which structural and economic transformations in this work might we expect?
We seek to close this gap through careful empirical analysis of Perplexity usage. Today, in collaboration with Harvard Business School researchers, we're sharing our first comprehensive study of Perplexity Computer in real-world deployment. Our findings suggest that Computer expands both the breadth and depth of what users can accomplish, at lower cost. Computer users are getting more done, working at higher levels of abstraction, and crossing disciplinary boundaries to unlock value outside their own professions.
This article presents the highlights from our study. Detailed methodology and findings are available in our technical report.
Introduction
The first mainstream generative AI systems were conversational assistants that engage in dialogue with users. These assistants sit between intent and action. They answer questions, explain tradeoffs, and suggest next steps. The user then has to translate the answer into work: open the right tools, gather files, edit documents, check intermediate outputs, and decide what to do next.
Agents change that division of labor. A user specifies an outcome, and the system plans across tools, executes intermediate steps, asks for missing inputs when needed, and returns a finished deliverable. Agents shift AI usage from looking things up and synthesizing them to planning and carrying out tasks autonomously.
This arc animates Perplexity's own product progression. In 2022, we launched Search, which defined the answer engine category by empowering users to ask questions and receive answers supported by verifiable citations across billions of documents. In 2025, we introduced the Comet browser, with an embedded web agent that reasons and acts alongside users on the open web. And in 2026, we launched Computer, a general-purpose agent orchestrator that autonomously works toward user-specified objectives across complex environments and lengthy time horizons.
How is this transition changing the way we work? We explore this question using data from our Search and Computer products, focusing on three dimensions:
- Autonomy: how much autonomous work does Computer perform versus Search on the same task?
- Efficiency: how much time and labor cost does Computer save relative to Search on the same task?
- Scope: how does Computer change the kind of work users attempt?
We find that agents such as Computer require more upfront user effort (since users must specify the objectives to be delegated and review the results) but much less human effort per unit of work (due to more autonomous execution). That makes them especially effective on long, multi-step workflows. The payoff is work that is both deeper and cheaper. Computer shifts user effort from manual execution to supervision, expanding the range of what users can accomplish both within and outside their own areas of expertise.

Expand
Computer Adoption and Use Cases
Computer was launched on February 25, 2026, and grew quickly in the first three months.
Cumulative Computer queries reached 84× their first-week total by May 27. As a baseline, cumulative Search usage among Computer users reached 14× its first-week total, higher than the 12× growth for non-Computer users.
Even after matching Computer and non-Computer users on subscription tier, primary Search topic, and prior Search intensity, a difference-in-differences comparison shows that adopting Computer increases Search use: Computer users make 1.05 more Search queries per day than similar non-Computer users.

Expand
Cumulative growth indexed to each series' first week. Computer query volume reached 84× its first-week cumulative total during the February 27–May 27 window.
In a random sample of 100,000 Computer queries, Research and Analysis was the largest task category at 25.8%, followed by Document and Asset Creation at 18.6%. The observed task mix skews toward generative work: documents, spreadsheets, codebases, websites, and workflows that require work across multiple tools.
Turning to domains, use was broadly distributed across Software and IT, Finance and Investing, Marketing and Sales, Business Operations, Healthcare, Education, Legal, and Media.

Expand
Computer use cases across task categories and subject-matter domains. Research, analysis, document creation, software, finance, business operations, and personal workflows all appear prominently.
Higher Autonomy and Quality
The most direct signal of autonomy is how long the system runs without human intervention after the user submits a request. Search usually returns a response in seconds. Computer often keeps working for minutes or even hours: searching, browsing, writing, editing, running code, and checking intermediate results.
We use Search and Computer sessions with near-identical initial queries as a proxy for the same task attempted with both products. Across 10,000 matched pairs, Computer performs 26 minutes of machine execution per session on average, versus 33 seconds for Search. That is a 48× increase in machine work on effectively the same tasks. At the median, the gap is 9 minutes versus 14 seconds, or 40×. The domain split shows the same pattern: Computer performs roughly 26–75× more machine work across all 18 domains.

Expand
Per-session machine execution time for matched Computer and Search sessions. Search is concentrated near short response times; Computer has a wider distribution centered around long-running autonomous execution. Computer's mean execution time (26 minutes) is much higher than the median (9 minutes), indicating a long tail of complex, long-horizon requests.

Expand
Average machine execution time by domain. Computer performs much more work per session because each user turn triggers downstream execution rather than only a conversational response.
Longer-running autonomy did not translate into more abandonment. User stop events were similar across products: 3.7% of Computer sessions and 3.4% of Search sessions contained at least one user stop event. Computer did pause for user input more often: 13% of Computer queries invoked at least one pause-for-user tool versus 0.3% for Search, usually to request approval or ask clarifying questions. That is the expected pattern for an agent: it can proceed autonomously most of the time, but it needs checkpoints to get permission and confirm what the user wants.
Computer also chains far more external tool calls—through the Model Context Protocol (MCP) or Application Programming Interface (API) endpoints—into a single session, doing work that a Search user would otherwise do by hand across separate apps. 7.9% of Computer sessions make at least one connector call versus 1.8% of Search sessions (a 4× gap), and Computer averages 1.19 connector calls per session versus 0.10 for Search (a 12× ratio). In other words, Computer doesn't just run longer; it reaches across more of a user's connected services to pull data and take actions.
Follow-up behavior also changes in composition. In a 1,000-pair multi-turn sample, the overall propensity toward task advancement is nearly identical across products (52.7% of Computer follow-ups versus 52.9% for Search), but what users ask for shifts: because Computer returns a more complete deliverable up front, its users substitute extensions for clarifying drill-downs (extensions 14.2% versus 12.5%; drill-downs 22.0% versus 23.4%). Computer users also spend slightly more of their follow-ups reviewing and revising output (24.6% versus 23.6%), while Search is heavier on short directives such as confirmations, retries, and format requests (11.6% versus 9.9%) that Computer folds into its initial run. In other words, Search creates shorter digest-and-execute loops; Computer creates longer review-and-extend loops.
Most importantly, quality did not fall with higher autonomy. On matched multi-turn sessions, meaningful next-turn dissatisfaction was 1.3% for Computer versus 2.9% for Search, a 55% reduction. Any dissatisfaction, including mild signals, was 10.8% for Computer versus 16.6% for Search.

Expand
Next-turn dissatisfaction signals in the matched multi-turn sample. Columns may not sum exactly to 100% due to rounding.
Efficiency Gains from Autonomy
Higher autonomy swaps manual human work for machine computation, which raises efficiency. To quantify this effect, we compare two setups on the same matched tasks.
- Search + Human: Search handles retrieval and synthesis; the human manually executes.
- Computer + Human: Computer performs the workflow; the human scopes the task and reviews the output.
We can't directly observe how long a task would take a human, so we triangulate with three independent estimates:
- Tool-based estimate: We classify Computer tool calls into two categories: "Search" and "Do." Search tools correspond to information retrieval and synthesis steps that are already handled by the Search product. Do tools represent execution steps that a human would need to perform manually when using Search alone. We then estimate the time required for an experienced human to carry out these Do actions.
- LLM-based estimate: We feed queries from Computer sessions into an LLM to estimate the time required for a skilled professional who receives answers from Search but must perform all execution steps manually.
- User-reported estimate: We conduct 25 semi-structured interviews with active Computer users across domains and elicit pre-Computer workflows and the time those workflows would have taken.

Expand
Tool classification used in the tool-based estimate. "Search" tools mirror capabilities Search already provides, so no manual time is charged. "Do" tools require the human to act on Search's research output; per-call minute estimates approximate the time a skilled professional would spend performing the equivalent action manually.
Under the tool-based estimate, the average Search + Human task takes 269 minutes, while the corresponding Computer + Human workflow takes 36 minutes. That is an 87% reduction in task time.
To translate task time into cost, we use domain-specific average hourly wages from U.S. Bureau of Labor Statistics Occupational Employment and Wage Statistics (BLS OEWS) May 2025 data (U.S. Bureau of Labor Statistics 2026). Combining model cost with domain-specific human labor cost, Computer reduces estimated task cost by 94% on average.

Expand
Estimated task time and cost for Search + Human versus Computer + Human. Human labor dominates the Search + Human baseline, while Computer shifts much of the work to model and tool execution.

Expand
Percentage of time and cost saved by Computer + Human relative to Search + Human, with multipliers in parentheses (e.g., 94% (16×) means Computer + Human is 94% or 16 times cheaper). Human labor cost uses BLS OEWS May 2025 mean hourly wages.
The efficiency advantage appears across all 18 domains, with 79–92% time savings and 87–96% cost savings. Programming is the most extreme case: 596 minutes for Search + Human versus 48 minutes for Computer + Human—a 92% time reduction that yields a 96% cost reduction. Business, Technology, Education, and Writing also show large gains. Time savings tend to translate into greater cost savings in higher-wage domains.
How robust is this result? Consider a breakeven: for Search + Human to match the cost of Computer + Human, a professional would need to finish every manual step in 14–24 minutes (median 18). Computer keeps its edge across every domain even under more conservative assumptions: for instance, an 8× overestimate in per-tool time, or a 12× underestimate in Computer's oversight time.
The LLM-based estimate yields similar aggregate results: an 84% reduction in time and a 93% reduction in cost overall. User interviews show a much wider range of outcomes—from 5× to over 300× speedups—likely reflecting substantial variation in users' pre-Computer baselines. The median speedup across participants is 25×, corresponding to a 96% reduction in time.
Task Scope Expands Horizontally and Vertically
Speed and cost on matched tasks capture only part of the story. The shape of work could also change. As Computer replaces manual execution with machine computation, users may take on different kinds of work—tasks that cross occupational boundaries and those that require higher levels of expertise.
First, we ask whether users work outside their inferred primary occupation cluster more often with Computer than with Search. Second, we compare Computer and Search queries from the same users using five task-level classifications: Bloom's Revised Taxonomy (Anderson and Krathwohl 2001), abstract versus routine work in the task-content tradition (Autor, Levy, and Murnane 2003), O*NET Knowledge breadth (National Center for O*NET Development 2026), O*NET work-activity breadth, and new tasks that were not attempted with Search.
The horizontal shift is apparent in the data. Across a sample of 8,000 users from eight occupation clusters, using all of their queries, Computer users work outside their primary occupation 59% of the time, compared to 50% for Search. The largest increases appear in Management and Entrepreneurship, Digital Technology, Arts and Design, and Healthcare and Human Services. Cross-occupation Search queries are concentrated in Digital Technology, whereas Computer queries delegate work that crosses into more diverse domains where users would otherwise need specialists.

Expand
Cross-occupation task flows across the eight occupation clusters. Curved arcs show each cluster's top outgoing destinations, with line width proportional to destination share and line type indicating the rank. Search concentrates cross-occupation flows into Digital Technology, while Computer spreads flows across Marketing, Management, Financial Services, and other executional destinations.
The vertical shift is even larger. In a sample of 5,000 Computer queries and 5,000 Search queries from the same set of dual-product users, Computer queries are more cognitively complex than Search queries. On Bloom's Revised Taxonomy, 76% of Computer queries require higher-order cognition, compared to 55% for Search. The difference is concentrated at the top: 50% of Computer queries are Create-level tasks, compared to 26% for Search. Search has much more mass at Remember-level factual lookup. On the abstract-versus-routine task-type dimension, 71% of Computer queries involve abstract, non-routine cognition versus 53% for Search.

Expand
Cognitive complexity of Computer and Search queries. Computer shifts strongly toward Create-level and abstract non-routine work.
Computer tasks also draw on more knowledge domains. The average Computer task requires substantive expertise in 2.40 O*NET Knowledge areas, compared to 1.74 for Search, a 38% increase. Computer is nearly three times as likely as Search to require three or more knowledge domains: 51% versus 17%.

Expand
Required knowledge domains per query. Computer sessions concentrate at two to three domains and are much more likely to require broad expertise.
At the work-activity level, the same pattern holds. A typical Computer query engages 2.95 O*NET Generalized Work Activities and 4.01 Intermediate Work Activities versus 2.24 and 2.87 for Search, a 32% and 40% increase. At finer levels, Computer engages 59% more Detailed Work Activities and 60% more occupation-specific Task Statements.

Expand
Per-query task-activity breadth across O*NET nesting levels. Computer shifts the distribution right at the intermediate, detailed, and task-statement levels.
The most revealing measure is the set of tasks that appear in Computer but not in Search among the same users. At the strictest definition, where a task statement appears in Computer and never appears in the paired Search sample, 23% of Computer queries engage at least one Computer-only task statement. Relaxing the threshold to allow up to five Search occurrences raises the share to 38%, and it plateaus near 41%. These Computer-only activities concentrate in software and web development, documentation production, and data visualization or graphics. That is exactly where autonomous execution matters most: Search explains; Computer produces.

Expand
Share of Computer queries that engage at least one Computer-only O*NET activity under different occurrence thresholds. The strongest separation appears at the fine-grained task-statement level.
Discussion
Most evidence on AI at work focuses on the assistant setting. That literature has shown large productivity gains in augmenting writing, customer support, coding, and consulting (e.g., Noy and Zhang 2023; Brynjolfsson, Li, and Raymond 2025; Cui et al. 2026; Dell'Acqua et al. 2026).
Agents change user behavior and downstream economic outcomes. Production deployments are beginning to reveal agent usage and impact in real-world settings but are mostly focused on specialized coding agents and early browser agents (e.g., Sarkar 2026; McCain et al. 2026; Demirer, Musolff, and Yang 2026; Yang et al. 2025). We complement this work and bridge the assistant and agent literature by comparing user interaction with a general-purpose agent orchestrator versus a conversational assistant, and by extending downstream impact analysis to a wider range of knowledge work.
We also move from exposure to realized task recomposition. Prior work estimates which occupations are exposed to AI using task descriptions and occupational structure (e.g., Eloundou et al. 2024; Felten, Raj, and Seamans 2023), while usage-based measures show the gap between exposure and deployment (Massenkoff and McCrory 2026). We document how the task composition shifts with agent access.
We note several caveats. First, the observation window is early, and early adopters skew toward AI natives. Users are also actively experimenting and adapting their workflows within a rapidly evolving product landscape, so these patterns may shift over time. Second, the session-based matched-query design leaves out many Computer tasks that have no close Search equivalent. While sessions provide a natural way to segment tasks, users do not always follow this structure in practice, making sessions a noisy proxy for task units. Third, the efficiency estimates depend critically on assumptions about human-equivalent tool time and human oversight time. Although LLM-based estimates and user interviews point in the same direction, and breakeven and sensitivity analyses indicate robustness, the exact magnitudes should be read as approximate. Relatedly, LLM classification error introduces additional measurement noise. Finally, we observe user behavior only within the Perplexity ecosystem and do not capture activity outside it, which may limit our view of users' full work activities and tool use.
Looking Ahead
Agents make existing tasks faster and cheaper—and, more importantly, make tasks spanning occupational boundaries and expertise levels viable.
When a system can search, browse, code, edit files, connect to services, and produce deliverables, the user's bottleneck shifts. They spend less time operating the workflow and more time specifying goals, supplying context, checking outputs, and asking for extensions. The user moves from operator to supervisor.
At the individual level, this shift expands the task frontier, enabling users to take on work that is both broader and deeper. At the organizational and labor market level, how these micro-level changes aggregate remains an open question. If a single individual, equipped with agents, can complete workflows that previously required multiple roles, then the long-run impact of agents will not be captured by speed and cost metrics alone. Instead, it will manifest in how work is bundled, how roles are defined, and how teams are structured.
To learn more about our methodology and findings, read the full technical report.
References
- Anderson, Lorin W., and David R. Krathwohl. 2001. A Taxonomy for Learning, Teaching, and Assessing: A Revision of Bloom's Taxonomy of Educational Objectives. New York: Longman.
- Autor, David H., Frank Levy, and Richard J. Murnane. 2003. "The Skill Content of Recent Technological Change: An Empirical Exploration." The Quarterly Journal of Economics 118 (4): 1279–1333.
- Brynjolfsson, Erik, Danielle Li, and Lindsey R. Raymond. 2025. "Generative AI at Work." The Quarterly Journal of Economics 140 (2): 889–942.
- Cui, Zheyuan Kevin, Mert Demirer, Sonia Jaffe, Leon Musolff, Sida Peng, and Tobias Salz. 2026. "The Effects of Generative AI on High-Skilled Work: Evidence from Three Field Experiments with Software Developers." Management Science, Articles in Advance.
- Dell'Acqua, Fabrizio, Edward McFowland III, Ethan R. Mollick, Hila Lifshitz-Assaf, Katherine Kellogg, Saran Rajendran, Lisa Krayer, François Candelon, and Karim R. Lakhani. 2026. "Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of Artificial Intelligence on Knowledge Worker Productivity and Quality." Organization Science, Articles in Advance.
- Demirer, Mert, Leon Musolff, and Liyuan Yang. 2026. "Writing Code vs. Shipping Code: Productivity Effects Across Generations of AI Coding Tools." NBER Working Paper 35275.
- Eloundou, Tyna, Sam Manning, Pamela Mishkin, and Daniel Rock. 2024. "GPTs are GPTs: Labor Market Impact Potential of LLMs." Science 384 (6702): 1306–1308.
- Felten, Edward W., Manav Raj, and Robert Seamans. 2023. "Occupational Heterogeneity in Exposure to Generative AI." SSRN 4414065.
- Massenkoff, Maxim, and Peter McCrory. 2026. "Labor Market Impacts of AI: A New Measure and Early Evidence." Anthropic.
- McCain, Miles, Thomas Millar, Saffron Huang, Jake Eaton, Kunal Handa, Michael Stern, Alex Tamkin, Matt Kearney, Esin Durmus, Judy Shen, Jerry Hong, Brian Calvert, Jun Shern Chan, Francesco Mosconi, David Saunders, Tyler Neylon, Gabriel Nicholas, Sarah Pollack, Jack Clark, and Deep Ganguli. 2026. "Measuring AI Agent Autonomy in Practice." Anthropic.
- National Center for O*NET Development. 2026. O*NET 30.2 Database. U.S. Department of Labor, Employment and Training Administration.
- Noy, Shakked, and Whitney Zhang. 2023. "Experimental Evidence on the Productivity Effects of Generative Artificial Intelligence." Science 381 (6654): 187–192.
- Sarkar, Suproteem K. 2026. "AI Agents and Higher-Order Work." University of Chicago Booth School of Business.
- U.S. Bureau of Labor Statistics. 2026. "Occupational Employment and Wage Statistics: May 2025 Estimates." U.S. Department of Labor.
- Yang, Jeremy, Noah Yonack, Kate Zyskowski, Denis Yarats, Johnny Ho, and Jerry Ma. 2025. "The Adoption and Usage of AI Agents: Early Evidence from Perplexity." arXiv preprint arXiv:2512.07828.
関連記事
ハーバード大学とPerplexityの共同研究:AIエージェントは1セッションあたり26分間の自律的作業を実行(検索は33秒)
ハーバード大学とPerplexityが共同で実施した90日間の研究では、Perplexityの「Computer」製品であるAIエージェントが、1回のセッションで平均26分間にわたって自律的な知識労働を完了させる一方、同社の検索機能は33秒間のみで作業を終了することが実証された。
"チャットは死んだ": OpenAI、ChatGPT の大規模刷新を準備
OpenAI は今年の上場を見据え、コーディングツールや AI エージェントを組み合わせた「スーパーアプリ」への転換を図り、収益源の拡大を目指している。
2026 年版 低コード・ノーコード AI ツール厳選 21 選
MarkTechPost は、テキストプロンプトでアプリや自動化を生成する AI ネイティブ開発環境として進化し、AI 実践者が現在利用している 21 のツールを紹介した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み