AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
MarkTechPost·2026年6月9日 14:53·約14分で読める

ハーバード大学とPerplexityの共同研究:AIエージェントは1セッションあたり26分間の自律的作業を実行(検索は33秒)

#AI Agents#Autonomous Workflows#Task Automation#Perplexity Computer#Harvard Research
TL;DR

ハーバード大学と Perplexity の共同研究により、AI エージェントが検索ツールと比較して 1 つのセッションあたり 26 分間の自律的な作業を実行し、品質も向上させることが実証された。

AI深層分析2026年6月9日 14:09
5
最重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
5

キーポイント

1

自律的作業時間の劇的な差

Perplexity Computer エージェントはセッションあたり平均 26 分の機械実行時間を記録したのに対し、検索エンジンではわずか 33 秒であり、48 倍の差が生じている。

2

コスト構造と最適化ポイント

エージェントはタスクあたりの固定コスト(委譲・レビュー)が高いが、ステップごとの限界コストが低く、一定以上の複雑さを持つタスクで効率的に機能する breakeven 点が存在する。

3

品質と満足度の向上

自律的な実行により、次回のターンでの不満率が検索エンジン(2.9%)に対しエージェントでは 1.3% と 55% 減少し、外部ツール連携も顕著に増加した。

4

補完関係の確立

エージェントの利用は検索クエリを代替するのではなく、むしろユーザーの日常検索数をわずかに増加させ(1.05 倍)、両製品の相乗効果を示している。

5

圧倒的な時間とコストの削減効果

人間と検索を組み合わせた場合と比較して、AI エージェント(Computer)を介した作業では所要時間が87%、コストが94%削減されることが示された。

6

作業の質と範囲の拡大

エージェント利用により、高次認知を要するタスクや複数の知識領域にまたがる複雑な作業への挑戦が増加し、検索では行わなかった新しいタイプのタスクも実行されるようになった。

7

満足度の向上とコスト構造の変化

AI エージェント利用時の意味ある不満率が55%減少する一方、1 回あたりのモデルコストは検索に比べて高くなるが、ステップ単価は大幅に低下し全体として圧倒的な効率化を実現している。

影響分析・編集コメントを表示

影響分析

この研究は、AI エージェントが「情報を探すツール」から「作業を実行するパートナー」へとパラダイムシフトしたことを実証的なデータで裏付けた画期的な成果です。企業や個人がタスクをどのように自動化すべきかの判断基準(コスト構造の分析)を提供し、エージェント技術の実用化と導入加速に大きな影響を与えるでしょう。

編集コメント

「検索」と「実行」の境界線が明確に定義された重要な研究であり、AI エージェントの実力評価において定量的な基準を提供しています。今後は各企業のエージェント機能における「 breakeven point(採算が合うタスク規模)」を測定することが競争力の鍵となるでしょう。

パープレキシティとハーバード大学による新しい研究は、AI エージェントが知識労働にどのような影響を与えるかについての現場証拠を提供します。この研究は、2 つのパープレキシティ製品である Search と Computer の本番データに基づいています。

この比較設定は自然なものです。Search は対話型の回答エンジンであり、Computer はタスクを計画してエンドツーエンドで実行するエージェントです。同じユーザーが両方の製品を利用するため、チームはタスクをほぼ一定に保つことができます。

研究が実際に測定しているもの

本研究は 2026 年 2 月 27 日から 5 月 27 日までの 90 日間を対象としています。Computer はこの期間の開始の 2 日前にリリースされました。

中核的な手法は、両製品間でほぼ同一のクエリペアを比較するものです。研究チームは、コサイン類似度が 0.99 を超える 10,000 セッションペアを見つけました。各ペアは、同じタスクを異なる方法で試みたものと実質的に等価です。

Computer のペアは、実行ツールを呼び出すセッションに限定されています。これらの「実行」ツールには、コードの実行、ブラウザ操作、ファイル書き込み、コネクタ呼び出しが含まれます。この制限により、すべての Computer セッションが実際の自律的な作業を行うことが保証されます。

期間中、採用率は上昇しました。Computer の累積クエリ数は初週の合計の 84 倍に達しました。対応分析では、Computer の採用がユーザーの日常 Search クエリ数を 1.05 倍に引き上げていることも明らかになりました。この肯定的な効果は、代替ではなく補完性を示唆しています。

imageimagehttps://research.perplexity.ai/articles/how-ai-agents-reshape-knowledge-work

コスト構造の枠組み

この研究は、単純なタスクベースのモデルに基づいてデータを裏付けています。各タスクにはステップ数が設定されており、より長いタスクはわずかに高い価値を持ちます。

エージェントはコスト構造を変化させます。委任とレビューのために、タスクあたりの固定コストを高く設定します。しかし、システムが実行を行うため、ステップあたりの限界コストは低くなります。

これにより、損益分岐点となるステップ数が生まれます。その数値より下では対話モードの方が安価であり、上ではエージェントモードが優位になります。短い照会は手動のまま、長いワークフローはエージェントに移行します。

自律性:26 分対 33 秒

最初の自律性の指標は実行時間です。コンピューター(AI エージェント)はセッションあたり 26 分の機械的作業を実行します。一方、検索は 33 秒です。これは 48 倍の差があります。

中央値も同様のパターンを示しています:9 分対 14 秒です。この差はドメインによって異なります。ローカルタスクでは 75 倍、科学分野では 26 倍です(単純な回答で十分な場合が多いため)。

高い自律性が、ここでは品質を低下させることはありませんでした。研究チームは、ユーザーの次の行動から生じる「次回の不満足度」をスコアリングしました。コンピューターの意味のある不満足率は 1.3% であったのに対し、検索では 2.9% でした(55% の削減)。

フォローアップのターンも、コンピューターではレビューと拡張へとシフトしますが、その変化は小さいものです。コネクタの使用はより明確に増加しました。コンピューターはセッションの 7.9% で少なくとも 1 つのコネクタを呼び出しましたが、検索では 1.8% です。コンピューターは、検索ユーザーが本来手動で実行するであろう外部ツールを連鎖させて使用します。

効率性:節約はどこから生まれるのか

効率性セクションでは、検索+人間の反実仮想シナリオを推定しています。検索のみを利用する人間は、対応するタスクあたり 269 分を要します。一方、コンピュータ+人間の場合は 36 分です。

これは全体で所要時間が 87% 削減され、コストが 94% 削減されたことを意味します。コスト削減額が時間削減額を上回るのは、専門分野の賃金率がこの効果を増幅するためです。コンピュータの利用モデルのコストはタスクあたり 4〜10 ドルですが、検索利用の場合は約 0.05 ドルです。

限界値の数値がこの枠組みを裏付けています。コンピュータ+人間のステップあたりのコストは 0.16 ドルに対し、検索+人間は 2.05 ドルです。対応したコンピュータセッションでは、プロンプトの長さも長く、中央値で 652 文字(検索+人間の 448 文字)でした。これはエージェントに対する高い固定コストの仮定を支持するものです。

損益分岐点分析によると、人間がコンピュータと同等の結果を出すには、すべての手動ステップを 20 分以内に完了させる必要があります。研究チームは、独立した大規模言語モデル(LLM: Large Language Model)による推計とユーザーインタビューを通じてこれをクロスチェックしました。LLM 手法では、所要時間が 84%、コストが 93% 削減されることが判明しました。インタビュー参加者は、5 倍から 300 倍の速度向上を報告しています。

水平展開と垂直展開

この研究が先行研究を超えて拡張しているのは「範囲」です。自律化は単にタスクを高速化するだけでなく、ユーザーが挑戦するタスクそのものを変えます。

水平面では、コンピュータによるクエリは職業の境界をより頻繁に越えています。異業種間でのシェアは、コンピュータ利用で平均 59% に対し、検索利用では 50% でした。管理と起業において最大の差が示され、19 ポイントの開きがありました。

垂直面では、コンピュータによるクエリの方がより高度な要求を伴います。ブルームの改訂された教育目標分類(Bloom's Revised Taxonomy)によると、高次認知を要するものが 76% に達し、検索利用では 55% でした。創造レベルの作業は、コンピュータクエリの 50% を占め、検索利用では 26% でした。

コンピュータタスクはまた、より多くの知識領域にまたがる。各クエリは平均して 2.40 の O*NET 知識領域に触れており、これは検索の 1.74 と比較してほぼ 3 倍の確率で 3 つ以上の領域を必要とする。

O*NET の階層がより細分化されるにつれて、構成可能性(composability)は上昇する。タスク記述レベルでは、コンピュータは活動数を 60% 増やした。コンピュータへのクエリの約 23% は、同じユーザーが検索に送信したことのないタスク記述に該当した。

imageimagehttps://research.perplexity.ai/articles/how-ai-agents-reshape-knowledge-work

比較表:検索 vs コンピュータ

次元 | Perplexity 検索 | Perplexity コンピュータ

---|---|---

フレームワーク内のモード | 対話型回答エンジン | エージェントオーケストレーター

セッションあたりの機械時間 | 33 秒(中央値 14 秒) | 26 分(中央値 9 分)

セッションあたりのクエリ数 | 2.8 | 5.3

意味のある(中級+上級)不満率 | 2.9% | 1.3%

コネクタ呼び出しを含むセッション | 1.8% | 7.9%

反事実的タスク時間 | 269 分(検索+人間) | 36 分(コンピュータ+人間)

ステップあたりのコスト | $2.05 | $0.16

タスクあたりのモデルコスト | 〜$0.05 | $4–10

職業横断クエリシェア | 50% | 59%

高次ブルーム認知 | 55% | 76%

クエリあたりの O*NET 知識領域数 | 1.74 | 2.40

主要な知見

コンピュータは、検索の 33 秒に対してセッションあたり 26 分の自律的な作業を実行し、その差は 48 倍である。

一致したタスクにおいて、コンピュータ+人間は検索+人間と比較して推定時間を 87%、コストを 94% 削減する。

コンピュータの意味のある不満率は 1.3% で、検索の 2.9% よりも 55% 減少している。

コンピュータ関連のクエリは、他の職業分野をまたいでより多く行われ(59% 対 50%)、より高度な認知処理を要求します(76% 対 55%)。

コンピュータ関連のクエリの約 23% は、同じユーザーが検索エンジンに一度も送信したことのないタスクステートメントに関連するものです。

Marktechpost のビジュアル解説

#mtp-harvard-agents *{box-sizing:border-box!important;margin:0;padding:0}

#mtp-harvard-agents hr,#mtp-harvard-agents p:empty,#mtp-harvard-agents del,#mtp-harvard-agents s{display:none!important}

#mtp-harvard-agents{

--crimson:#A51C30;--crimson-deep:#7A1420;--crimson-darker:#5E0F18;

--ink:#1E1E1E;--ink-soft:#4A4A4A;--ivory:#FBF7F1;--line:#E7DDD2;

font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,Helvetica,Arial,sans-serif!important;

background:linear-gradient(135deg,#7A1420 0%,#5E0F18 100%)!important;

color:#FBF7F1!important;border:1px solid #5E0F18!important;border-radius:16px!important;

padding:26px!important;max-width:860px;margin:24px auto;line-height:1.5;

box-shadow:0 10px 30px rgba(94,15,24,.25)!important;

}

#mtp-harvard-agents .mtp-head{display:flex;align-items:center;justify-content:space-between;gap:12px;margin-bottom:16px}

#mtp-harvard-agents .mtp-eyebrow{font-size:11px;letter-spacing:2.4px;text-transform:uppercase;font-weight:700;color:#F4C9CF!important}

#mtp-harvard-agents .mtp-badge{font-size:11px;font-weight:700;letter-spacing:1px;color:#FBF7F1!important;border:1px solid rgba(251,247,241,.35)!important;border-radius:999px!important;padding:4px 12px!important}

#mtp-harvard-agents .mtp-stage{position:relative;background:#FBF7F1!important;border-radius:12px!important;border:1px solid #E7DDD2!important;overflow:hidden}

#mtp-harvard-agents .mtp-slide{display:none;padding:30px 32px 34px;min-height:362px}

#mtp-harvard-agents .mtp-slide.is-active{display:block;animation:mtpfade .4s ease}

@keyframes mtpfade{from{opacity:0;transform:translateY(6px)}to{opacity:1;transform:none}}

#mtp-harvard-agents .mtp-accent{width:46px;height:4px;background:#A51C30!important;border-radius:2px!important;margin-bottom:16px}

#mtp-harvard-agents .mtp-num{font-size:12px;font-weight:700;letter-spacing:1px;color:#A51C30!important;margin-bottom:8px}

#mtp-harvard-agents h2{font-family:Georgia,"Times New Roman",serif!important;font-size:25px;line-height:1.2;color:#1E1E1E!important;margin-bottom:6px;font-weight:700}

#mtp-harvard-agents .mtp-sub{font-size:14px;color:#4A4A4A!important;margin-bottom:18px}

#mtp-harvard-agents .mtp-cover h2{font-size:32px;margin-bottom:12px}

#mtp-harvard-agents .mtp-meta{font-size:12.5px;color:#4A4A4A!important;margin-top:18px;border-top:1px solid #E7DDD2!important;padding-top:14px!important}

#mtp-harvard-agents ul{list-style:none;margin-top:6px}

#mtp-harvard-agents li{position:relative;padding-left:20px;margin:11px 0;font-size:14.5px;color:#1E1E1E!important}

#mtp-harvard-agents li:before{content:"";position:absolute;left:0;top:8px;width:8px;height:8px;background:#A51C30!important;border-radius:2px!important}

#mtp-harvard-agents li b{color:#7A1420!important}

#mtp-harvard-agents .mtp-stats{display:grid;grid-template-columns:repeat(2,1fr);gap:14px;margin-top:6px}

#mtp-harvard-agents .mtp-stat{background:#fff!important;border:1px solid #E7DDD2!important;border-left:4px solid #A51C30!important;border-radius:8px!important;padding:14px 16px!important}

#mtp-harvard-agents .mtp-big{font-family:Georgia,"Times New Roman",serif!important;font-size:27px;font-weight:700;color:#A51C30!important;line-height:1.1}

#mtp-harvard-agents .mtp-cap{font-size:12.5px;color:#4A4A4A!important;margin-top:4px}

#mtp-harvard-agents .mtp-tablewrap{overflow-x:auto;-webkit-overflow-scrolling:touch;margin-top:6px}

#mtp-harvard-agents table{width:100%;border-collapse:collapse!important;font-size:13.5px}

#mtp-harvard-agents th,#mtp-harvard-agents td{text-align:left;padding:9px 10px!important;border-bottom:1px solid #E7DDD2!important;color:#1E1E1E!important;white-space:nowrap}

#mtp-harvard-agents thead th{background:#A51C30!important;color:#FBF7F1!important;border-bottom:none!important}

#mtp-harvard-agents tbody tr:nth-child(even) td{background:#F4ECE3!important}

#mtp-harvard-agents td:first-child{white-space:normal;color:#4A4A4A!important}

#mtp-harvard-agents .mtp-nav{display:flex;align-items:center;justify-content:space-between;margin-top:16px}

#mtp-harvard-agents .mtp-arrow{cursor:pointer;background:#FBF7F1!important;color:#A51C30!important;border:none!important;width:42px;height:42px;border-radius:50%!important;font-size:18px;font-weight:700;line-height:1;display:flex;align-items:center;justify-content:center;transition:transform .15s}

#mtp-harvard-agents .mtp-arrow:hover{transform:scale(1.08)}

#mtp-harvard-agents .mtp-arrow:disabled{opacity:.35;cursor:default;transform:none}

#mtp-harvard-agents .mtp-dots{display:flex;gap:8px;flex-wrap:wrap;justify-content:center}

#mtp-harvard-agents .mtp-dot{cursor:pointer;width:9px;height:9px;border-radius:50%!important;background:rgba(251,247,241,.4)!important;border:none!important;padding:0!important}

#mtp-harvard-agents .mtp-dot.is-active{background:#FBF7F1!important;width:24px;border-radius:5px!important}

#mtp-harvard-agents .mtp-tag{margin-top:18px;text-align:center;border-top:1px solid rgba(251,247,241,.22)!important;padding-top:14px!important}

#mtp-harvard-agents .mtp-tag a{color:#FBF7F1!important;text-decoration:none!important;font-weight:700;letter-spacing:.3px}

#mtp-harvard-agents .mtp-tag span{display:block;font-size:12px;color:#F4C9CF!important;margin-top:3px}

@media(max-width:640px){

#mtp-harvard-agents{padding:18px!important}

#mtp-harvard-agents .mtp-slide{padding:22px 20px 26px;min-height:0}

#mtp-harvard-agents h2{font-size:21px}

#mtp-harvard-agents .mtp-cover h2{font-size:25px}

#mtp-harvard-agents .mtp-stats{grid-template-columns:1fr}

#mtp-harvard-agents .mtp-big{font-size:23px}

#mtp-harvard-agents .mtp-arrow{width:38px;height:38px}

#mtp-harvard-agents li,#mtp-harvard-agents .mtp-sub{font-size:13.5px}

}

研究ガイド

ハーバード × Perplexity

01 / 10

AI エージェントが知識労働をどう再構築するか

自律性、効率性、および範囲 — 本番データからの現場証拠。

新しい研究は、自律型エージェントと会話型検索アシスタントを比較します。

これは、Perplexity Search と Perplexity Computer の実際の使用データを利用しています。

Jeremy Yang (Harvard) · Kate Zyskowski, Noah Yonack, Jerry Ma (Perplexity) · arXiv:2606.07489v1

02 / 10

この研究が測定するもの

マッチドペア設計により、タスクは製品間でほぼ一定に保たれます。

90 日間の期間:2026 年 2 月 27 日から 5 月 27 日まで。

コサイン類似度が 0.99 を超える 10,000 ペアのマッチドセッション。

Computer セッションは、「実行」ツールに制限されます:コード実行、ブラウザ操作、ファイル書き込み、コネクタ呼び出し。

同じデュアルプロダクトユーザーが両側に登場します。

03 / 10

コスト構造の枠組み

シンプルなタスクベースモデルは、委譲が効果的な時期を説明します。

エージェントモードは、委譲とレビューのためにタスクあたり高い固定コストを課金します。

実行を行うため、ステップあたりの限界コストは低くなります。

損益分岐点となるステップ数で仕事を分類し、それより短いものは下位、長いものは上位に配置されます。

タスク選択は 0-1 ナップサック問題としてモデル化されています。

04 / 10

自律性:セッションあたりの機械作業

ここでは、自律性の向上は品質の低下を伴いませんでした。

セッションあたりの自律的作業時間:26 分対 33 秒(48 倍の差)

セッション時間の中央値:9 分対 14 秒(40 倍の差)

意味ある不満率:1.3% 対 2.9%(55% 低下)

コネクタ呼び出しを伴うセッション数:7.9% 対 1.8%

効率性:時間とコスト

対応するタスクにおける「検索+人間」の反実仮想シナリオに対して推定。

平均タスク完了時間:269 → 36 分

全体で節約された時間/コスト:87% / 94%

ステップあたりのコスト(コンピューター対 検索+人間):0.16 ドル対 2.05 ドル

コンピューターと同等の性能を出すための手動ステップでの損益分岐点:< 20 分

範囲:より広範で困難な作業

自律性は、単に速度を上げるだけでなく、ユーザーが挑戦するタスクの種類そのものを変えます。

水平方向:職業横断的なシェアは 59% 対 50%(管理・起業家分野で +19 ポイント)

垂直方向:高次ブルーム認知領域は 76% 対 55%

創造レベルの作業:コンピュータークエリの 50% が該当する一方、検索では 26%

知識の幅:クエリあたりの O*NET ドメイン数 2.40 対 1.74(+38%)

コンピューターがもたらす新たな可能性

独自性はトピックの範囲ではなく、微細な実行作業にあります。

検索に比べて、クエリあたりに関与する O*NET タスク記述が +60% 増加。

コンピュータークエリの 23% は、同じユーザーが検索では決して送信しなかったタスク記述に該当。

成果は、ソフトウェアおよびウェブ開発、ドキュメント作成、データ可視化に集中しています。

08 / 10

検索対コンピュータ

研究の主要指標を並べて比較。

次元 検索 コンピュータ

セッションあたりの機械時間 33 秒(中央値 14 秒) 26 分(中央値 9 分)

セッションあたりのクエリ数 2.8 5.3

意味ある不満度 2.9% 1.3%

ステップあたりのコスト $2.05 $0.16

職業横断的シェア 50% 59%

高次認知機能 55% 76%

クエリあたりの O*NET ドメイン数 1.74 2.40

09 / 10

エンジニア向けのユースケース

本知見が日々の技術業務にどう対応するか。

データサイエンティスト:単一タスクは設計、数学、経済学および会計を横断する。

ソフトウェアエンジニア:エージェントがファイル作成、コード実行、デプロイを行い、あなたは監督する。

AI エンジニア:短い参照は対話型パスへ、長いワークフローはエージェントへルーティングする。

10 / 10

結論

速度から範囲へ。

時間とコストの節約は大きいが予想通りである。

より鋭い知見は、より広範で複雑な作業に挑戦している点にある。

実用的な教訓はタスク・ツール適合性:ステップ数に応じてツールを選択することだ。

出典:How AI Agents Reshape Knowledge Work: Autonomy, Efficiency, and Scope (arXiv:2606.07489v1)。

‹

›

Marktechpost

エンジニア向けに解読された、実践者ファーストの AI/ML 研究報道。

必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:

{"translation": "翻訳全文"}

(function(){

var root=document.getElementById('mtp-harvard-agents');

if(!root||root.dataset.mtpInit)return;root.dataset.mtpInit='1';

var slides=[].slice.call(root.querySelectorAll('.mtp-slide'));

var dotsWrap=root.querySelector('.mtp-dots');

var prev=root.querySelector('[data-mtp="prev"]');

var next=root.querySelector('[data-mtp="next"]');

var i=0;

slides.forEach(function(s,idx){

var d=document.createElement('button');

d.className='mtp-dot'+(idx===0?' is-active':'');

d.setAttribute('aria-label','Go to slide '+(idx+1));

d.addEventListener('click',function(){go(idx)});

dotsWrap.appendChild(d);

});

var dots=[].slice.call(dotsWrap.children);

function go(n){

i=Math.max(0,Math.min(slides.length-1,n));

slides.forEach(function(s,idx){s.classList.toggle('is-active',idx===i)});

dots.forEach(function(d,idx){d.classList.toggle('is-active',idx===i)});

prev.disabled=(i===0);next.disabled=(i===slides.length-1);

}

prev.addEventListener('click',function(){go(i-1)});

next.addEventListener('click',function(){go(i+1)});

root.setAttribute('tabindex','0');

root.addEventListener('keydown',function(e){

if(e.key==='ArrowLeft')go(i-1);

if(e.key==='ArrowRight')go(i+1);

});

var x0=null;

root.addEventListener('touchstart',function(e){x0=e.touches[0].clientX},{passive:true});

root.addEventListener('touchend',function(e){

if(x0===null)return;var dx=e.changedTouches[0].clientX-x0;

if(Math.abs(dx)>45){go(dx

論文と技術詳細をご覧ください。本研究のための短いデモも作成しました。また、Twitter でフォローしていただくこともお気軽にどうぞ。15 万人以上の ML サブレッドに参加し、ニュースレターを購読することも忘れないでください。待ってください!Telegram をご利用ですか?今なら Telegram でも私たちに参加できます。

GitHub リポジトリや Hugging Face ページ、製品リリース、ウェビナーなどのプロモーションのためにパートナーシップをご検討の場合は、こちらまでご連絡ください。

本記事「ハーバード大学と Perplexity による新研究:AI エージェントはセッションあたり平均 26 分の自律的作業を実行するのに対し、検索では 33 秒」として、MarkTechPost で最初に公開されました。

原文を表示

A new working research from Perplexity and Harvard offers field evidence on what AI agents do to knowledge work. It draws on production data from two Perplexity products: Search and Computer.

The setup is a natural comparison. Search is a conversational answer engine. Computer is an agent that plans and executes tasks end to end. The same users touch both products, so the team can hold the task roughly constant.

What the Study Actually Measures

The research study covers a 90-day window, February 27 through May 27, 2026. Computer launched two days before that window opened.

The core method matches near-identical query pairs across the two products. The research team found 10,000 session pairs with cosine similarity above 0.99. Each pair is effectively the same task attempted both ways.

Computer pairs are gated to sessions that invoke an execution tool. These ‘do’ tools include code execution, browser actions, file writes, and connector calls. That gate ensures every Computer session does real autonomous work.

Adoption rose over the window. Cumulative Computer queries reached 84× their first-week total. A matched analysis found Computer adoption also raised users’ daily Search queries by 1.05. The positive effect points to complementarity, not substitution.

imageimagehttps://research.perplexity.ai/articles/how-ai-agents-reshape-knowledge-work

The Cost-Structure Framework

The research grounds its data in a simple task-based model. Each task has a step count, and longer tasks carry weakly higher value.

Agents change the cost structure. They charge a higher fixed cost per task, for delegation and review. But they charge a lower marginal cost per step, since the system executes.

This produces a breakeven step count. Below it, the conversational mode is cheaper. Above it, the agent mode wins. Short lookups stay manual; long workflows move to the agent.

Autonomy: 26 Minutes vs 33 Seconds

The first autonomy measure is execution time. Computer runs 26 minutes of machine work per session. Search runs 33 seconds. That is a 48× gap.

Medians show the same pattern: 9 minutes versus 14 seconds. The gap varies by domain. Local tasks show 75×; Science shows 26×, since plain answers often suffice.

Higher autonomy did not lower quality here. The research team scored next-turn dissatisfaction from what users do next. Computer’s meaningful dissatisfaction rate was 1.3%, against 2.9% for Search (55% reduction).

Follow-up turns also shift toward review and extension on Computer, though the changes are small. Connector usage rose more clearly. Computer invoked at least one connector in 7.9% of sessions, versus 1.8% for Search. Computer chains external tools that Search users would otherwise run by hand.

Efficiency: Where the Savings Come From

The efficiency section estimates a Search + Human counterfactual. A human with Search alone takes 269 minutes per matched task. Computer + Human takes 36 minutes.

That is 87% less time and 94% less cost overall. Cost savings exceed time savings because domain wages amplify the effect. Computer’s model cost runs $4–10 per task; Search runs about $0.05.

The marginal numbers support the framework. Computer + Human costs $0.16 per step, versus $2.05 for Search + Human. Matched Computer sessions also ran longer prompts, 652 versus 448 characters at the median. That supports the higher fixed-cost assumption for agents.

Breakeven analysis says a professional must finish all manual steps in under 20 minutes to match Computer. The research team cross-checked with an independent LLM estimate and user interviews. The LLM method found 84% time and 93% cost savings. Interviewees reported speedups from 5× to 300×.

Horizontal and Vertical Expansion

Scope is where this research extends past prior work. Autonomy does not just speed up tasks. It changes which tasks users attempt.

Horizontally, Computer queries cross occupational lines more often. Cross-occupation share averaged 59% on Computer, versus 50% on Search. Management and Entrepreneurship showed the largest gap, at 19 points.

Vertically, Computer queries are more demanding. On Bloom’s Revised Taxonomy, 76% required higher-order cognition, versus 55% for Search. Create-level work was 50% of Computer queries, against 26%.

Computer tasks also span more knowledge domains. Each query touched 2.40 O*NET Knowledge domains on average, versus 1.74. It was nearly three times as likely to need three or more domains.

Composability climbs as the O*NET hierarchy gets finer. At the Task Statement level, Computer engaged 60% more activities. About 23% of Computer queries hit a Task Statement that the same users never sent to Search.

imageimagehttps://research.perplexity.ai/articles/how-ai-agents-reshape-knowledge-work

Comparison Table: Search vs Computer

DimensionPerplexity SearchPerplexity Computer

Mode in the frameworkConversational answer engineAgent orchestrator

Machine time per session33 seconds (median 14s)26 minutes (median 9m)

Queries per session2.85.3

Meaningful (mid+high) dissatisfaction2.9%1.3%

Sessions with a connector call1.8%7.9%

Counterfactual task time269 min (Search + Human)36 min (Computer + Human)

Cost per step$2.05$0.16

Model cost per task~$0.05$4–10

Cross-occupation query share50%59%

Higher-order Bloom cognition55%76%

O*NET Knowledge domains per query1.742.40

Key Takeaways

Computer runs 26 minutes of autonomous work per session versus 33 seconds for Search, a 48× gap.

On matched tasks, Computer + Human cuts estimated time 87% and cost 94% versus Search + Human.

Computer’s meaningful dissatisfaction rate is 1.3% versus 2.9% for Search, a 55% reduction.

Computer queries cross occupations more (59% vs 50%) and demand more higher-order cognition (76% vs 55%).

About 23% of Computer queries hit a Task Statement the same users never sent to Search.

Marktechpost’s Visual Explainer

#mtp-harvard-agents *{box-sizing:border-box!important;margin:0;padding:0}

#mtp-harvard-agents hr,#mtp-harvard-agents p:empty,#mtp-harvard-agents del,#mtp-harvard-agents s{display:none!important}

#mtp-harvard-agents{

--crimson:#A51C30;--crimson-deep:#7A1420;--crimson-darker:#5E0F18;

--ink:#1E1E1E;--ink-soft:#4A4A4A;--ivory:#FBF7F1;--line:#E7DDD2;

font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,Helvetica,Arial,sans-serif!important;

background:linear-gradient(135deg,#7A1420 0%,#5E0F18 100%)!important;

color:#FBF7F1!important;border:1px solid #5E0F18!important;border-radius:16px!important;

padding:26px!important;max-width:860px;margin:24px auto;line-height:1.5;

box-shadow:0 10px 30px rgba(94,15,24,.25)!important;

}

#mtp-harvard-agents .mtp-head{display:flex;align-items:center;justify-content:space-between;gap:12px;margin-bottom:16px}

#mtp-harvard-agents .mtp-eyebrow{font-size:11px;letter-spacing:2.4px;text-transform:uppercase;font-weight:700;color:#F4C9CF!important}

#mtp-harvard-agents .mtp-badge{font-size:11px;font-weight:700;letter-spacing:1px;color:#FBF7F1!important;border:1px solid rgba(251,247,241,.35)!important;border-radius:999px!important;padding:4px 12px!important}

#mtp-harvard-agents .mtp-stage{position:relative;background:#FBF7F1!important;border-radius:12px!important;border:1px solid #E7DDD2!important;overflow:hidden}

#mtp-harvard-agents .mtp-slide{display:none;padding:30px 32px 34px;min-height:362px}

#mtp-harvard-agents .mtp-slide.is-active{display:block;animation:mtpfade .4s ease}

@keyframes mtpfade{from{opacity:0;transform:translateY(6px)}to{opacity:1;transform:none}}

#mtp-harvard-agents .mtp-accent{width:46px;height:4px;background:#A51C30!important;border-radius:2px!important;margin-bottom:16px}

#mtp-harvard-agents .mtp-num{font-size:12px;font-weight:700;letter-spacing:1px;color:#A51C30!important;margin-bottom:8px}

#mtp-harvard-agents h2{font-family:Georgia,"Times New Roman",serif!important;font-size:25px;line-height:1.2;color:#1E1E1E!important;margin-bottom:6px;font-weight:700}

#mtp-harvard-agents .mtp-sub{font-size:14px;color:#4A4A4A!important;margin-bottom:18px}

#mtp-harvard-agents .mtp-cover h2{font-size:32px;margin-bottom:12px}

#mtp-harvard-agents .mtp-meta{font-size:12.5px;color:#4A4A4A!important;margin-top:18px;border-top:1px solid #E7DDD2!important;padding-top:14px!important}

#mtp-harvard-agents ul{list-style:none;margin-top:6px}

#mtp-harvard-agents li{position:relative;padding-left:20px;margin:11px 0;font-size:14.5px;color:#1E1E1E!important}

#mtp-harvard-agents li:before{content:"";position:absolute;left:0;top:8px;width:8px;height:8px;background:#A51C30!important;border-radius:2px!important}

#mtp-harvard-agents li b{color:#7A1420!important}

#mtp-harvard-agents .mtp-stats{display:grid;grid-template-columns:repeat(2,1fr);gap:14px;margin-top:6px}

#mtp-harvard-agents .mtp-stat{background:#fff!important;border:1px solid #E7DDD2!important;border-left:4px solid #A51C30!important;border-radius:8px!important;padding:14px 16px!important}

#mtp-harvard-agents .mtp-big{font-family:Georgia,"Times New Roman",serif!important;font-size:27px;font-weight:700;color:#A51C30!important;line-height:1.1}

#mtp-harvard-agents .mtp-cap{font-size:12.5px;color:#4A4A4A!important;margin-top:4px}

#mtp-harvard-agents .mtp-tablewrap{overflow-x:auto;-webkit-overflow-scrolling:touch;margin-top:6px}

#mtp-harvard-agents table{width:100%;border-collapse:collapse!important;font-size:13.5px}

#mtp-harvard-agents th,#mtp-harvard-agents td{text-align:left;padding:9px 10px!important;border-bottom:1px solid #E7DDD2!important;color:#1E1E1E!important;white-space:nowrap}

#mtp-harvard-agents thead th{background:#A51C30!important;color:#FBF7F1!important;border-bottom:none!important}

#mtp-harvard-agents tbody tr:nth-child(even) td{background:#F4ECE3!important}

#mtp-harvard-agents td:first-child{white-space:normal;color:#4A4A4A!important}

#mtp-harvard-agents .mtp-nav{display:flex;align-items:center;justify-content:space-between;margin-top:16px}

#mtp-harvard-agents .mtp-arrow{cursor:pointer;background:#FBF7F1!important;color:#A51C30!important;border:none!important;width:42px;height:42px;border-radius:50%!important;font-size:18px;font-weight:700;line-height:1;display:flex;align-items:center;justify-content:center;transition:transform .15s}

#mtp-harvard-agents .mtp-arrow:hover{transform:scale(1.08)}

#mtp-harvard-agents .mtp-arrow:disabled{opacity:.35;cursor:default;transform:none}

#mtp-harvard-agents .mtp-dots{display:flex;gap:8px;flex-wrap:wrap;justify-content:center}

#mtp-harvard-agents .mtp-dot{cursor:pointer;width:9px;height:9px;border-radius:50%!important;background:rgba(251,247,241,.4)!important;border:none!important;padding:0!important}

#mtp-harvard-agents .mtp-dot.is-active{background:#FBF7F1!important;width:24px;border-radius:5px!important}

#mtp-harvard-agents .mtp-tag{margin-top:18px;text-align:center;border-top:1px solid rgba(251,247,241,.22)!important;padding-top:14px!important}

#mtp-harvard-agents .mtp-tag a{color:#FBF7F1!important;text-decoration:none!important;font-weight:700;letter-spacing:.3px}

#mtp-harvard-agents .mtp-tag span{display:block;font-size:12px;color:#F4C9CF!important;margin-top:3px}

@media(max-width:640px){

#mtp-harvard-agents{padding:18px!important}

#mtp-harvard-agents .mtp-slide{padding:22px 20px 26px;min-height:0}

#mtp-harvard-agents h2{font-size:21px}

#mtp-harvard-agents .mtp-cover h2{font-size:25px}

#mtp-harvard-agents .mtp-stats{grid-template-columns:1fr}

#mtp-harvard-agents .mtp-big{font-size:23px}

#mtp-harvard-agents .mtp-arrow{width:38px;height:38px}

#mtp-harvard-agents li,#mtp-harvard-agents .mtp-sub{font-size:13.5px}

}

Research Guide

Harvard × Perplexity

01 / 10

How AI Agents Reshape Knowledge Work

Autonomy, Efficiency, and Scope — field evidence from production data.

A new study compares an autonomous agent with a conversational search assistant.

It uses real usage data from Perplexity Search and Perplexity Computer.

Jeremy Yang (Harvard) &middot; Kate Zyskowski, Noah Yonack, Jerry Ma (Perplexity) &middot; arXiv:2606.07489v1

02 / 10

What the Study Measures

A matched-pair design holds the task roughly constant across products.

90-day window: February 27 to May 27, 2026.

10,000 matched session pairs with cosine similarity above 0.99.

Computer sessions are gated to “do” tools: code execution, browser actions, file writes, connector calls.

The same dual-product users appear on both sides.

03 / 10

The Cost-Structure Framework

A simple task-based model explains when delegation pays off.

The agent mode charges a higher fixed cost per task, for delegation and review.

It charges a lower marginal cost per step, since it executes.

A breakeven step count sorts work: short below it, agent above it.

Task selection is modeled as a 0-1 knapsack problem.

04 / 10

Autonomy: Machine Work per Session

Higher autonomy did not come at a quality cost here.

26 min vs 33 s

Autonomous work per session (48× gap)

9 min vs 14 s

Median session time (40× gap)

1.3% vs 2.9%

Meaningful dissatisfaction (55% lower)

7.9% vs 1.8%

Sessions invoking a connector call

05 / 10

Efficiency: Time and Cost

Estimated against a Search + Human counterfactual on matched tasks.

269 &rarr; 36 min

Average task completion time

87% / 94%

Time saved / cost saved overall

$0.16 vs $2.05

Cost per step (Computer vs Search + Human)

< 20 min

Manual-step breakeven to match Computer

06 / 10

Scope: Broader and Harder Work

Autonomy changes which tasks users attempt, not just their speed.

Horizontal: cross-occupation share 59% vs 50% (Management & Entrepreneurship +19 pp).

Vertical: higher-order Bloom cognition 76% vs 55%.

Create-level work: 50% of Computer queries vs 26% for Search.

Knowledge breadth: 2.40 vs 1.74 O*NET domains per query (+38%).

07 / 10

What Computer Unlocks

Distinctiveness lies in fine-grained executional work, not topical range.

+60% more O*NET Task Statements engaged per query than Search.

23% of Computer queries hit a Task Statement the same users never sent to Search.

Gains concentrate in software and web development, documentation, and data visualization.

08 / 10

Search vs Computer

Side-by-side across the study’s main measures.

DimensionSearchComputer

Machine time per session33 s (med 14 s)26 min (med 9 m)

Queries per session2.85.3

Meaningful dissatisfaction2.9%1.3%

Cost per step$2.05$0.16

Cross-occupation share50%59%

Higher-order cognition55%76%

O*NET domains per query1.742.40

09 / 10

Use Cases for Engineers

How the findings map to day-to-day technical work.

Data scientists: single tasks span Design, Mathematics, and Economics and Accounting.

Software engineers: the agent writes files, runs code, and deploys; you supervise.

AI engineers: route short lookups to a conversational path, long workflows to an agent.

10 / 10

The Takeaway

From speed to scope.

Time and cost savings are large but expected.

The sharper finding is broader, more complex work attempted.

The practical lesson is task-tool fit: match the tool to the step count.

Source: How AI Agents Reshape Knowledge Work: Autonomy, Efficiency, and Scope (arXiv:2606.07489v1).

‹

›

Marktechpost

Practitioner-first AI/ML research coverage, decoded for engineers.

(function(){

var root=document.getElementById('mtp-harvard-agents');

if(!root||root.dataset.mtpInit)return;root.dataset.mtpInit='1';

var slides=[].slice.call(root.querySelectorAll('.mtp-slide'));

var dotsWrap=root.querySelector('.mtp-dots');

var prev=root.querySelector('[data-mtp="prev"]');

var next=root.querySelector('[data-mtp="next"]');

var i=0;

slides.forEach(function(s,idx){

var d=document.createElement('button');

d.className='mtp-dot'+(idx===0?' is-active':'');

d.setAttribute('aria-label','Go to slide '+(idx+1));

d.addEventListener('click',function(){go(idx)});

dotsWrap.appendChild(d);

});

var dots=[].slice.call(dotsWrap.children);

function go(n){

i=Math.max(0,Math.min(slides.length-1,n));

slides.forEach(function(s,idx){s.classList.toggle('is-active',idx===i)});

dots.forEach(function(d,idx){d.classList.toggle('is-active',idx===i)});

prev.disabled=(i===0);next.disabled=(i===slides.length-1);

}

prev.addEventListener('click',function(){go(i-1)});

next.addEventListener('click',function(){go(i+1)});

root.setAttribute('tabindex','0');

root.addEventListener('keydown',function(e){

if(e.key==='ArrowLeft')go(i-1);

if(e.key==='ArrowRight')go(i+1);

});

var x0=null;

root.addEventListener('touchstart',function(e){x0=e.touches[0].clientX},{passive:true});

root.addEventListener('touchend',function(e){

if(x0===null)return;var dx=e.changedTouches[0].clientX-x0;

if(Math.abs(dx)>45){go(dx

Check out the Paper and Technical details. We have also created a short demo for this research paper. Also, feel free to follow us on Twitter and don’t forget to join our 150k+ ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.

Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us

The post A New Study from Harvard and Perplexity Finds AI Agents Perform 26 Minutes of Autonomous Work per Session vs 33 Seconds for Search appeared first on MarkTechPost.

この記事をシェア

関連記事

TLDR AI★42026年6月9日 09:00

AI エージェントが知識労働をどう再構築するか(18 分読)

Perplexity の「Computer」のような AI エージェントは、従来の検索や人手による実行と比較して時間を 87%、コストを 94% 削減し、タスクを自律的に実行することで、ユーザーが目標設定と監視に集中できる環境を提供している。

Ars Technica AI★42026年6月8日 22:51

"チャットは死んだ": OpenAI、ChatGPT の大規模刷新を準備

OpenAI は今年の上場を見据え、コーディングツールや AI エージェントを組み合わせた「スーパーアプリ」への転換を図り、収益源の拡大を目指している。

MarkTechPost★42026年6月7日 17:40

2026 年版 低コード・ノーコード AI ツール厳選 21 選

MarkTechPost は、テキストプロンプトでアプリや自動化を生成する AI ネイティブ開発環境として進化し、AI 実践者が現在利用している 21 のツールを紹介した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む