AIの労働市場への影響:新たな測定方法と初期の証拠
Anthropic Researchは、理論的LLM能力と実世界の使用データを組み合わせ、自動化(補完ではなく)と業務関連用途を重視したAIによる労働市場への影響を測定する新たな指標「観測された露出」を導入し、現時点ではAIが雇用に与える影響は限定的であるという初期証拠を示した。
キーポイント
新指標「観測された露出」の導入
AIによる労働市場への影響を測定する新たな枠組みとして、理論的LLM能力と実世界の使用データを組み合わせ、自動化(補完ではなく)と業務関連用途を重視した指標「観測された露出」を提案している。
AIの理論的能力と実態の乖離
AIは理論的可能性には程遠く、実際の適用範囲は実現可能な範囲のほんの一部に留まっていることを示している。
露出度の高い職業の特徴と予測
観測された露出度が高い職業は、BLS(米国労働統計局)の予測によれば2034年までに成長が鈍化するとされており、そのような職業の労働者は年齢が高く、女性が多く、教育水準が高く、給与も高い傾向にある。
現時点での雇用への限定的影響
2022年後半以降、露出度の高い労働者における失業の体系的な増加は見られないが、露出度の高い職業では若年労働者の採用が鈍化している示唆的な証拠が見つかっている。
過去の予測手法への謙虚さと枠組みの有用性
過去の労働市場影響予測手法の実績を踏まえ、影響が不明確な場合に最も有用な枠組みを確立し、定期的に分析を更新することで、将来的な経済的混乱をより確実に特定することを目指している。
AIの労働市場への影響の測定アプローチ
研究では、AIの影響を測定するためにタスクベースのアプローチを採用しており、理論的なAI能力と実際の使用状況の両方を考慮した職業レベルの曝露指標を開発している。
観測曝露の新指標
理論的にAIで高速化可能なタスクのうち、実際に専門的な環境で自動化使用されているものを定量化する「観測曝露」という新指標を提案している。
影響分析・編集コメントを表示
影響分析
この研究は、AIの労働市場への影響に関する議論を、理論的な懸念から実証的な測定と分析へと移行させる重要な一歩となる。新指標「観測された露出」は、政策立案者や企業がAI導入の影響をより現実的に評価し、適切な対策を講じるための基盤を提供する可能性がある。また、現時点での影響が限定的であるという発見は、AIによる雇用破壊に関する過度な懸念を一時的に和らげる一方で、長期的な構造変化への備えの重要性を強調している。
編集コメント
AIの労働市場への影響に関する議論に、貴重な実証データと新たな分析枠組みを提供する重要な研究。過剰な楽観論や悲観論ではなく、データに基づいた冷静な議論を促す内容であり、今後の政策や企業戦略の基礎資料として参照される可能性が高い。
AIの労働市場への影響:新たな測定指標と初期の証拠
我々は、理論的なLLM(大規模言語モデル)の能力と実世界の使用データを組み合わせ、自動化(補完的ではなく)および業務関連の用途をより重視した、AIによる代替リスクの新たな測定指標「観測された露出度」を導入する。
AIは理論的な能力には程遠い:実際のカバレッジは実現可能な範囲のごく一部に留まっている。
観測された露出度が高い職業は、労働統計局(BLS)の予測によれば2034年までに成長がより低くなると見込まれている。
最も露出度の高い職業の労働者は、年齢が高い、女性、高学歴、高収入である可能性が高い。
2022年後半以降、高度に露出した労働者の失業率の体系的な増加は見られないが、露出度の高い職業では若年労働者の採用が鈍化していることを示唆する証拠が見られる。
AIの急速な普及は、労働市場への影響を測定・予測する研究の波を生み出している。しかし、過去のアプローチの実績は謙虚さを持つ理由を与えている。
例えば、仕事のオフショア可能性を測定する著名な試みは、米国の仕事の約4分の1を脆弱と特定したが、10年後、それらの仕事のほとんどは健全な雇用成長を維持していた。政府自身の職業成長予測は、方向性は正しいものの、過去の傾向の線形外挿を超える予測的価値はほとんど追加していない。後知恵であっても、主要な経済的混乱が労働市場に与える影響はしばしば不明確である。産業用ロボットの雇用効果に関する研究は相反する結論に達しており、中国貿易ショックに起因する雇用喪失の規模については議論が続いている。1
本論文では、AIの労働市場への影響を理解するための新たな枠組みを提示し、初期データに対して検証を行い、AIがこれまで雇用に影響を与えたという限定的な証拠しか見つけていない。我々の目標は、AIが雇用にどのように影響しているかを測定するアプローチを確立し、これらの分析を定期的に見直すことである。このアプローチは、AIが労働市場を再形成する可能性のあるあらゆる経路を捉えることはできないが、有意な影響が現れる前に今この基盤を築くことで、将来の知見が事後分析よりも経済的混乱をより確実に特定することを期待する。
AIの影響が明白である可能性もある。この枠組みは、影響が曖昧な場合に最も有用であり、代替が目に見える前に最も脆弱な仕事を特定するのに役立つかもしれない。
反事実
因果推論は、影響が大きく突然である場合に容易である。COVID-19パンデミックとそれに伴う政策措置は、多くの疑問に対して高度な統計的アプローチが不要なほど顕著な経済的混乱を引き起こした。例えば、パンデミック初期の数週間で失業率は急激に上昇し、代替説明の余地はほとんどなかった。
しかし、AIの影響は、COVIDよりもむしろインターネットや中国との貿易に似ているかもしれない。影響は、総合失業率データから直ちに明らかではない可能性がある。貿易政策や景気循環などの要因がトレンドラインの解釈を曇らせる可能性がある。
一般的なアプローチの一つは、AIへの露出度が高い労働者、企業、産業と低いものとの間で結果を比較し、交絡要因からAIの効果を分離することである。2 露出度は通常、タスクレベルで定義される。例えば、AIは宿題を採点できるが教室を管理することはできないため、教師は、仕事全体を遠隔で行うことができる労働者よりも露出度が低いと見なされる。
我々の研究は、このタスクベースのアプローチに従い、理論的なAI能力と実世界の使用の測定値を組み込んでから、職業レベルに集計する。3
露出度の測定
我々のアプローチは、3つのソースからのデータを組み合わせる。
米国の約800のユニークな職業に関連するタスクを列挙するO*NETデータベース。
我々自身の使用データ(Anthropic Economic Indexで測定)。
Eloundou et al. (2023)からのタスクレベルの露出度推定値。これは、LLMがタスクを少なくとも2倍速くすることが理論的に可能かどうかを測定する。
Eloundou et al.の指標βは、タスクを単純な尺度でスコアリングする。LLM単独でタスクの速度を2倍にできる場合は1、LLMの上に構築された追加のツールやソフトウェアを必要とする場合は0.5、それ以外は0。4
なぜ実際の使用は理論的な能力に及ばないのか?理論的に可能なタスクの一部は、モデルの制限のために使用に現れないかもしれない。他のタスクは、法的制約、特定のソフトウェア要件、人間による検証ステップ、その他の障壁のために普及が遅いかもしれない。例えば、Eloundou et al.は「薬の再処方を承認し、薬局に処方情報を提供する」を完全に露出(β=1)とマークしている。我々はClaudeがこのタスクを実行しているのを観測していないが、評価は理論的にはLLMによって高速化できるという点で正しいと思われる。
とはいえ、これらの理論的能力と実際の使用の測定値は高度に相関している。図1が示すように、過去4回のEconomic Indexレポートで観測されたタスクの97%は、Eloundou et al.によって理論的に実現可能と評価されたカテゴリー(β=0.5またはβ=1.0)に分類される。
職業的露出度の新たな測定指標
我々の新たな測定指標「観測された露出度」は、LLMが理論的に高速化できるタスクのうち、実際に専門的な設定で自動化された使用が見られているのはどれかを定量化することを意図している。理論的能力ははるかに広範なタスクの範囲を含む。そのギャップがどのように狭まるかを追跡することで、観測された露出度は経済的変化が現れるにつれて洞察を提供する。
我々の測定指標は、雇用影響を予測すると考えるAI使用のいくつかの側面を質的に捉えている。仕事の露出度は、以下の場合に高い。
そのタスクがAIで理論的に可能である
そのタスクがAnthropic Economic Indexで重要な使用が見られる5
そのタスクが業務関連の文脈で実行される
自動化された使用パターンやAPI実装の割合が比較的高い
AIの影響を受けるタスクが役割全体のより大きな割合を占める6
数学的詳細は付録に記載する。我々は、理論的にLLMで可能なタスクを、Claudeトラフィックで十分な業務関連の使用が見られた場合にカバーされていると数える。次に、タスクがどのように実行されているかについて調整する。完全に自動化された実装は完全な重みを受け、補完的使用は半分の重みを受ける。最後に、タスクレベルのカバレッジ測定値は、各タスクに費やされる時間の割合で重み付けして職業レベルに平均化される。
図2は、観測された露出度(赤)とEloundou et al.のβ(青)を比較し、広範な職業カテゴリー別にグループ化された我々のプラットフォームでの理論的と実際の使用の違いを示している。我々はこれを、まず我々の時間割合測定値で重み付けして職業レベルに平均化し、次に総雇用で重み付けして職業カテゴリーに平均化することで計算する。例えば、β測定値は、コンピュータ・数学(94%)およびオフィス・管理(90%)職業のタスクの大半でLLM浸透の余地を示している。
赤い領域は、Anthropic Economic IndexからのLLM使用を示し、人々が専門的な設定でClaudeをどのように使用しているかを示している。カバレッジは、AIが理論的能力に到達するには程遠いことを示している。例えば、Claudeは現在、コンピュータ・数学カテゴリーの全タスクのわずか33%をカバーしている。
能力が進歩し、採用が広がり、展開が深まるにつれて、赤い領域は青をカバーするように成長するだろう。また、大きな未カバー領域もある。もちろん、多くのタスクはAIの手の届かないままである。木の剪定や農機具の操作などの物理的な農業作業から、法廷でクライアントを代理するなどの法的タスクまで。
図3は、この測定指標の下で最も露出度の高い10の職業を示している。Claudeがコーディングに広く使用されていることを示す他のデータと一致して、コンピュータプログラマーが75%のカバレッジでトップに立ち、続いて主要なタスクを我々がファーストパーティAPIトラフィックでますます見ているカスタマーサービス代表者が続く。最後に、ソース文書を読みデータを入力するという主要なタスクに重要な自動化が見られるデータ入力キーパーは、67%カバーされている。
下端では、労働者の30%がゼロカバレッジである。彼らのタスクは我々のデータにあまりにも頻繁に現れず、最小閾値を満たさなかったためである。このグループには、例えば、料理人、オートバイ整備士、ライフガード、バーテンダー、皿洗い、試着室係が含まれる。
露出度が予測される雇用成長と労働者特性とどのように連動するか
米国労働統計局(BLS)は定期的に雇用予測を発表しており、2025年に発表された最新のセットは、2024年から2034年までのすべての職業の雇用の予測変化をカバーしている。図4では、我々の仕事レベルのカバレッジ測定指標を彼らの予測と比較する。
現在の雇用で重み付けされた職業レベルでの回帰分析では、観測された露出度が高い仕事ほど成長予測がやや弱いことがわかる。カバレッジが10パーセントポイント増加するごとに、BLSの成長予測は0.6パーセントポイント低下する。これは、我々の測定指標が労働市場アナリストから独立して導出された推定値と連動しているという点でいくらかの検証を提供するが、関係はわずかである。興味深いことに、Eloundou et al.の測定指標だけを使用した場合、そのような相関は見られない。
図5は、現住人口調査のデータを使用して、ChatGPTがリリースされる前の3か月間(2022年8月から10月)の露出度の上位四分位の労働者とゼロ露出度の労働者30%の特性を示している。7 グループは非常に異なる。より露出度の高いグループは、女性である可能性が16パーセントポイント高く、白人である可能性が11パーセントポイント高く、アジア人である可能性がほぼ2倍高い。彼らは平均して47%多く稼ぎ、より高い教育レベルを持っている。例えば、大学院学位を持つ人は、露出度のないグループの4.5%であるが、最も露出度の高いグループの17.4%であり、ほぼ4倍の差である。
結果の優先順位付け
これらの露出度測定方法を手に入れたところで、次に何を探すべきかが問題となる。研究者たちは異なるアプローチを取っている。例えば、Gimbel et al. (2025) はCurrent Population Survey(現住人口調査)を用いて職業構成の変化を追跡している。彼らの主張は、AIによる経済の重要な再構築は、仕事の分布の変化として現れるだろうというものだ¹(彼らは、これまでのところ変化は目立たないとしている)。Brynjolfsson et al. (2025) は給与計算処理企業ADPのデータを用いて年齢層別の雇用水準を調べている一方で、Acemoglu et al. (2022) とHampole et al. (2025) はそれぞれBurning Glass(現在のLightcast)とRevelioの求人情報データを使用している。
我々は失業を優先的な結果として焦点を当てる。なぜなら、それは経済的損害の可能性を最も直接的に捉えるからだ——失業している労働者は仕事を欲しており、まだ見つけられていない状態である。この場合、求人情報や雇用は必ずしも政策対応の必要性を示すものではない。高い露出度の役職に対する求人の減少は、関連する役職での求人増加によって相殺される可能性がある。AIによる労働市場への最も有害な展開は、おそらく、代替職を探すために職を失った労働者が増加する期間を含むべきだろう。Current Population Survey(現住人口調査)はこれを追跡するのに適している。なぜなら、失業中の回答者は以前の仕事と業種を報告するからだ。
初期の結果
次に、我々は失業の傾向を研究し、職業レベルの測定値をCurrent Population Survey(現住人口調査)の回答者と照合する。
我々のカバレッジ測定値を解釈する際の重要な疑問は、どの労働者を「処理済み」と見なすべきか? 10%のタスクカバレッジだけから雇用の変化が期待されるべきか? GansとGoldfarb (2025) は、もしOリングモデルが仕事を最もよく記述するなら、雇用への影響は全てのタスクがある程度のAI浸透を持つ時にのみ見られるかもしれないと示している。Hampole et al. (2025) は、平均露出度は労働需要を減少させるが、露出度が特定のタスクに集中することでこれを相殺できると論じている。そしてAutorとThompson (2025) は、残りのタスクに必要な専門知識のレベルを強調している。
簡潔さを念頭に置き、我々が最も大きな影響を懸念していることに留意して、我々の分析は、影響が最も高い平均露出度を持つグループで最も強く感じられるべきだという考えを中心に据える。我々は、時間加重タスクカバレッジの上位四分位に属する労働者と下位の労働者を比較する。もしAIの能力が急速に進歩すれば、カバレッジの低いパーセンタイルでもタスクカバレッジが高くなる可能性があり、絶対的な閾値がより有用かもしれない。しかし、我々は影響が最も露出度の高い労働者に最初に及ぶべきだという仮定を置き、処理を定義するために使用するカットオフを変えて結果を示す。
図6の上部パネルは、露出度上位四分位の労働者と非露出グループの2016年以降の失業率の生の傾向を示している。COVID-19の間、AI露出度の低い労働者——対面での仕事を持つ可能性が高い——は失業の大幅な増加を見た。それ以来、両グループ間の傾向はほぼ同様である。下部パネルは、最も露出度の高い労働者と最も低い労働者の間のギャップの大きさを差の差法(difference-in-differences)の枠組みで測定しており、生データからの発見を反映している。ChatGPTリリース以降のギャップの平均変化は小さく有意でなく、より露出度の高いグループの失業率がわずかに増加したが、その効果はゼロと区別できないことを示唆している⁸。
この枠組みはどのようなシナリオを識別できるか? プールされた推定値の信頼区間に基づくと、1パーセントポイント程度の失業の差分的増加は検出可能だろう(これは新しいデータが入るにつれて変化するので、単なる概算である)。もし上位10%の労働者が全員解雇されれば、上位四分位グループ内の失業率は3%から43%に増加し、全体の失業率は4%から13%に増加するだろう。
より小さいが依然として懸念される影響は、「ホワイトカラー労働者のための大不況」のようなシナリオだろう。2007-2009年の大不況の間、米国では失業率は5%から10%に倍増した。露出度上位四分位でのそのような倍増は、その失業率を3%から6%に増加させるだろう。これは我々の分析でも見えるはずだ。我々の核心的な推定値は、露出度の高いグループの失業率の差分的変化を、より露出度の低いグループと比較したものに基づいていることに注意。もし全ての労働者の失業が並行して増加したなら、我々はこれを、まだ多くのタスクに影響を与えていないAIの進歩に帰することはない。
特に懸念されるグループの一つは若年労働者である。Brynjolfsson et al. は、22歳から25歳の労働者における露出度の高い職業での雇用の6~16%の減少を報告している。彼らはこの減少を、主に解雇の増加ではなく採用の減速に帰している⁹。
我々は、露出度の高い職業における若年労働者の失業率は横ばいであることを発見した(付録参照)。しかし、採用の減速は必ずしも失業の増加として現れるとは限らない。なぜなら、多くの若年労働者は労働市場への新規参入者であり、CPSデータに記載された職業がなく、失業者として現れるよりも労働力から退出する可能性があるからだ。採用を直接扱うために、我々はCPSのパネル次元を使用し、時間の経過とともに、より露出度の高い職業と低い職業で新たな仕事を始める若年(22-25歳)労働者の割合を数える。図7は、若年労働者の月次の仕事発見率(すなわち、労働者が前月には持っていなかった仕事を報告する時)を示しており、彼らが高露出度職業と低露出度職業のどちらに入るかによって分割されている。
2020-2021年のいくつかの大きな変動を除けば、これらの系列は視覚的に2024年に分岐し、若年労働者は相対的に露出度の高い職業に採用される可能性が低くなっている。露出度の低い職業での仕事発見率は月2%で安定したままである一方、最も露出度の高い仕事への参入は約0.5パーセントポイント減少している。ChatGPT以降の時代における平均推定値は、露出度の高い職業での仕事発見率が2022年と比べて14%低下しているが、これは統計的にかろうじて有意であるに過ぎない。(25歳以上の労働者にはそのような減少はない。)
これは、雇用に対するAIの初期効果のいくつかのシグナルを提供するかもしれず、Brynjolfsson et al. の発見を裏付けている。しかし、いくつかの代替的な解釈がある。採用されなかった若年労働者は、既存の仕事に留まっているか、異なる仕事に就いているか、学校に戻っている可能性がある。さらにデータ関連の注意点として、仕事の移行は調査での誤測定に対してより脆弱かもしれない¹⁰。
この報告書は、AIの労働市場への影響を理解するための新たな測定方法を導入し、失業と採用への影響を研究する。仕事は、そのタスクがLLM(大規模言語モデル)で理論的に実行可能であり、我々のプラットフォームで自動化された仕事関連のユースケースで観察される範囲で、AIへの露出度が高い。我々は、コンピュータプログラマー、カスタマーサービス担当者、金融アナリストが最も露出度が高いことを発見した。米国の調査データを使用して、我々は最も露出度の高い職業の労働者の失業率への影響は見られないが、22-25歳の労働者におけるそれらの職業への採用がわずかに減速しているという暫定的な証拠があることを発見した。
我々の仕事は、AIの労働市場への影響を分類するための第一歩である。我々は、この報告書で取られた分析ステップ、特にカバレッジと反事実的推論(counterfactuals)に関するものが、雇用とAI使用に関する新しいデータが出現するにつれて容易に更新されることを望む。確立されたアプローチは、将来の観察者がシグナルとノイズを分離するのに役立つかもしれない。
現在の仕事にはいくつかの改善点がある。我々の使用データは将来の更新に組み込まれ、経済におけるタスクと仕事のカバレッジの進化する絵を形成するだろう。Eloundou et al. の指標も、2023年初頭時点でのLLM能力に関連する範囲で更新される可能性がある。そして、若年労働者と労働市場新規参入者に関する示唆的な結果を考慮すると、次の重要なステップは、露出度の高い分野での教育資格を持つ最近の卒業生が労働市場をどのように進んでいるかを見ることかもしれない。
こちらで利用可能。
謝辞
Maxim Massenkoff と Peter McCrory による執筆。
謝辞:Ruth Appel, Tim Belonax, Keir Bradwell, Andy Braden, Dexter Callender III, Miriam Chaum, Madison Clark, Jake Eaton, Deep Ganguli, Kunal Handa, Ryan Heller, Lara Karadogan, Jennifer Martinez, Jared Mueller, Sarah Pollack, David Saunders, Carl De Torres, Kim Withee, Jack Clark。
さらに、この報告書の以前のバージョンに対するフィードバックを提供してくれた Martha Gimbel, Anders Humlum, Evan Rose, Nathan Wilmers に感謝する。
@online{massenkoffmccrory2026labor, author = {Maxim Massenkoff and Peter McCrory}, title = {Labor market impacts of AI: A new measure and early evidence}, date = {2026-03-05}, year = {2026}, url = {https://www.anthropic.com/research/labor-market-impacts}, }
Acemoglu, Daron and Pascual Restrepo, "Robots and Jobs: Evidence from US Labor Markets," Journal of Political Economy, 2020, 128 (6), 2188–2244.
Acemoglu, Daron, David Autor, Jonathon Hazell, and Pascual Restrepo, "Artificial intelligence and jobs: Evidence from online vacancies," Journal of Labor Economics, 2022, 40 (S1), S293–S340.
Appel, Ruth, Maxim Massenkoff, Peter McCrory, Miles McCain, Ryan Heller, Tyler Neylon, and Alex Tamkin, "Anthropic Economic Index report: economic primitives," 2026.
Autor, David H, David Dorn, and Gordon H Hanson, "The China syndrome: Local labor market effects of import competition in the United States," American Economic Review, 2013, 103 (6), 2121–2168.
Autor, David H, & Thompson, N. (2025). Expertise. NBER Working Paper, (w33941).
Blinder, Alan S et al., "How many US jobs might be offshorable?," World Economics, 2009, 10 (2), 41.
Borusyak, Kirill, Peter Hull, and Xavier Jaravel, "Quasi-experimental shift-share research designs," The Review of Economic Studies, 2022, 89 (1), 181–213.
Brynjolfsson, Erik, Bharat Chandar, and Ruyu Chen, "炭鉱のカナリア? 人工知能の最近の雇用効果に関する6つの事実," Digital Economy, 2025.
Eckhardt, Sarah and Nathan Goldschlag, "AIと雇用: 最終的な見解 (次回まで)," Economic Innovation Group (EIG), 2025年8月. https://eig.org/ai-and-jobs-the-final-word/ で入手可能.
Eloundou, Tyna, Sam Manning, Pamela Mishkin, and Daniel Rock, "GPTはGPT: 大規模言語モデルの労働市場への影響可能性に関する初期の考察," arXiv preprint arXiv:2303.10130, 2023, 10.
Fujita, S., Moscarini, G., & Postel-Vinay, F. (2024). 雇用主間の再配分の測定. American Economic Journal: Macroeconomics, 16(3), 1-51.
Gans, Joshua S. and Goldfarb, Avi, "Oリング自動化," NBER Working Paper No. 34639, 2025年12月. SSRN: https://ssrn.com/abstract=5962594 で入手可能.
Gimbel, Martha, Molly Kinder, Joshua Kendall, and Maddie Lee, "AIの労働市場への影響評価: 現状," Research Report, The Budget Lab at Yale, New Haven, CT 2025年10月. https://budgetlab.yale.edu で入手可能.
Graetz, Georg and Guy Michaels, "働くロボット," Review of Economics and Statistics, 2018, 100 (5), 753–768.
Hampole, Menaka, Dimitris Papanikolaou, Lawrence DW Schmidt, and Bryan Seegmiller, "人工知能と労働市場," Technical Report, National Bureau of Economic Research 2025.
Handa, Kunal, Alex Tamkin, Miles McCain, Saffron Huang, Esin Durmus, Sarah Heck, Jared Mueller, Jerry Hong, Stuart Ritchie, Tim Belonax, Kevin K. Troy, Dario Amodei, Jared Kaplan, Jack Clark, and Deep Ganguli, "どの経済的タスクがAIで実行されているか? 数百万のClaude会話からの証拠," 2025.
Hui, Xiang, Oren Reshef, and Luofeng Zhou, "生成AIの雇用への短期的効果: オンライン労働市場からの証拠," Organization Science, 2024, 35 (6), 1977–1989.
Johnston, Andrew and Christos Makridis, "生成AIの労働市場効果: AIエクスポージャーに関する差の差分析," SSRN 5375017 で入手可能, 2025.
Massenkoff, Maxim, "仕事の破壊はどの程度予測可能か? Occupational Outlookからの証拠," 2025. Working Paper.
Ozimek, Adam, "オフショア懸念の過剰反応," 2019. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3777307
Tamkin, Alex and Peter McCrory, "Claude会話からのAI生産性向上の推定," 2025.
Tomlinson, K., Jaffe, S., Wang, W., Counts, S., & Suri, S. (2025). AIとの協働: 職業への生成AIの適用可能性の測定. arXiv preprint arXiv:2507.07935.
仕事のオフショア可能性: Blinder et al. (2009) and Ozimek (2019); 政府の成長予測: Massenkoff (2025); ロボット: Graetz and Michaels (2018) and Acemoglu and Restrepo (2020); 中国ショック: Autor et al. (2013) and Borusyak et al. (2022).
Brynjolfsson et al. (2025) は、Eloundou et al. (2023) のタスクエクスポージャー測定とADPの給与データを使用して、よりAIエクスポージャーの高い職業と低い職業の労働者の雇用動向を比較している。Johnston and Makridis (2025) は、米国の行政データを使用して同様のタスクベースの分析を行っているが、処置を産業レベルに集約している。Hui et al. (2024) は、Upworkのフリーランス仕事がChatGPTと高度な画像生成ツールのリリースにどのように反応したかを研究し、各ツールのリリース日以前と以後で、直接影響を受けたカテゴリーの労働者と影響を受けなかったカテゴリーの労働者を比較している。Hampole et al. (2025) は、歴史的な大学採用ネットワークを使用して企業レベルのAI導入を操作変数化している: 卒業生が後にAI関連の役割に就いた大学から歴史的に採用を行ってきた企業は、導入コストが低かった。
我々のタスクおよび職業レベルのエクスポージャー測定は、他の使用データを容易に組み込むことができ、異なる国々に拡張することができる。我々は、この方法論を時間の経過とともに新しい設定に適用する予定である。
彼らの枠組みでは、「直接エクスポージャー」タスクとは、LLM(大規模言語モデル)を使用することで半分の時間で完了できるタスク(2,000語の入力制限があり、最近の事実にはアクセスできない)であった。「ツール付きエクスポージャー」タスクとは、情報検索や画像処理などのソフトウェアにアクセスできるLLMを使用して同じ速度向上が可能なタスクであった。エクスポージャーされていないタスクは、LLMを使用してもその所要時間を50%以上短縮できないタスクであった。
我々は、2025年8月と11月の使用状況をカバーする、以前の2つのAnthropic Economic Indexデータセットを使用する。意味的に非常に類似したO*NETタスクについては、そのカウントをそれらに分割する。
各ステップには判断を伴う。Eloundou et al. (2023) の測定は {0, 0.5, 1} として入力すべきか、それとも別のものか?「有意な」使用を決定するものは何か?使用頻度が高いタスクと非常に類似しているが、Economic Indexのサンプリングで具体的に捕捉されるには稀すぎるタスクをどのように扱うか?自動化ワークフローは、拡張と比較してどれだけ多くカウントすべきか?付録で詳述する安心できる発見は、これらの問題に対する多くの解決策における職業エクスポージャーのスピアマン(順位-順位)相関が極めて高いことである。
CPSのocc1990コードとO*NET-SOCコードを一致させるために、我々はEckhart and Goldschlag (2025) によって提供されたクロスウォークを使用する。
我々は、付録で3つの方法でこれをさらに探求する。第一に、我々が処置を定義するために使用するパーセンタイルカットオフが重要かどうかを問い、中央値から95パーセンタイルまで変化させる。全ての場合において、
原文を表示
Labor market impacts of AI: A new measure and early evidence
We introduce a new measure of AI displacement risk, observed exposure, that combines theoretical LLM capability and real-world usage data, weighting automated (rather than augmentative) and work-related uses more heavily
AI is far from reaching its theoretical capability: actual coverage remains a fraction of what's feasible
Occupations with higher observed exposure are projected by the BLS to grow less through 2034
Workers in the most exposed professions are more likely to be older, female, more educated, and higher-paid
We find no systematic increase in unemployment for highly exposed workers since late 2022, though we find suggestive evidence that hiring of younger workers has slowed in exposed occupations
The rapid diffusion of AI is generating a wave of research measuring and forecasting its impacts on labor markets. But the track record of past approaches gives reason for humility.
For example, a prominent attempt to measure job offshorability identified roughly a quarter of US jobs as vulnerable, but a decade on, most of those jobs maintained healthy employment growth. The government’s own occupational growth forecasts, while directionally correct, have added little predictive value beyond linear extrapolation of past trends. Even in hindsight, the impact of major economic disruptions on the labor market is often unclear. Studies on the employment effects of industrial robots reach opposing conclusions, and the scale of job losses attributed to the China trade shock continues to be debated.1
In this paper, we present a new framework for understanding AI’s labor market impacts, and test it against early data, finding limited evidence that AI has affected employment to date. Our goal is to establish an approach for measuring how AI is affecting employment, and to revisit these analyses periodically. This approach won't capture every channel through which AI could reshape the labor market, but by laying this groundwork now, before meaningful effects have emerged, we hope future findings will more reliably identify economic disruption than post-hoc analyses.
It is possible that the impacts of AI will be unmistakable. This framework is most useful when the effects are ambiguous—and could help identify the most vulnerable jobs before displacement is visible.
Counterfactuals
Causal inference is easier when the effects are large and sudden. The COVID-19 pandemic and accompanying policy measures caused economic disruption so stark that sophisticated statistical approaches were unnecessary for many questions. For example, unemployment jumped sharply in the early weeks of the pandemic, leaving little room for alternative explanations.
The impacts of AI, however, might be less like COVID and more like the internet or trade with China. The effects may not be immediately clear from aggregate unemployment data; factors like trade policy and the business cycle could cloud interpretations of trend lines.
One common approach is to compare outcomes between more or less AI-exposed workers, firms, or industries, in order to isolate the effect of AI from confounding forces.2 Exposure is typically defined at the task level: AI can grade homework but not manage a classroom, for example, so teachers are considered less exposed than workers whose entire job can be performed remotely.
Our work follows this task-based approach, incorporating measures of theoretical AI capability and real-world usage, before aggregating to occupations.3
Measuring exposure
Our approach combines data from three sources.
The O*NET database, which enumerates tasks associated with around 800 unique occupations in the US.
Our own usage data (as measured in the Anthropic Economic Index).
Task-level exposure estimates from Eloundou et al. (2023), which measure whether it is theoretically possible for an LLM to make a task at least twice as fast.
Eloundou et al.’s metric, β, scores tasks on a simple scale: 1 if a task can be doubled in speed by an LLM alone, 0.5 if it requires additional tools or software built on top of the LLM, and 0 otherwise.4
Why might actual usage fall short of theoretical capability? Some tasks that are theoretically possible may not show up in usage because of model limitations. Others may be slow to diffuse due to legal constraints, specific software requirements, human verification steps, or other hurdles. For example, Eloundou et al. mark “Authorize drug refills and provide prescription information to pharmacies” as fully exposed (β=1). We have not observed Claude performing this task, although the assessment seems correct in that it could theoretically be sped up by an LLM.
That said, these measures of theoretical capability and actual usage are highly correlated. As Figure 1 shows, 97% of the tasks observed across the previous four Economic Index reports fall into categories rated as theoretically feasible by Eloundou et al. (β=0.5 or β=1.0).
A new measure of occupational exposure
Our new measure, observed exposure, is meant to quantify: of those tasks that LLMs could theoretically speed up, which are actually seeing automated usage in professional settings? Theoretical capability encompasses a much broader range of tasks. By tracking how that gap narrows, observed exposure provides insight into economic changes as they emerge.
Our measure qualitatively captures several aspects of AI usage that we think are predictive of job impacts. A job's exposure is higher if:
Its tasks are theoretically possible with AI
Its tasks see significant usage in the Anthropic Economic Index5
Its tasks are performed in work-related contexts
It has a relatively higher share of automated use patterns or API implementation
Its AI-impacted tasks make up a larger share of the overall role6
We give mathematical details in the Appendix. We count tasks that are theoretically capable with an LLM as covered if they have seen sufficient work-related usage in Claude traffic. We then adjust for how the task is being carried out: fully automated implementations receive full weight, while augmentative use receives half weight. Finally, the task-level coverage measures are averaged to the occupation level weighted by the fraction of time spent on each task.
Figure 2 shows observed exposure (in red) compared to β from Eloundou et al. (in blue), illustrating the difference between theoretical and actual use on our platform, grouped by broad occupational categories. We calculate this by first averaging to the occupation level weighting by our time fraction measure, then averaging to the occupation category weighting by total employment. For example, the β measure shows scope for LLM penetration in the majority of tasks in Computer & Math (94%) and Office & Admin (90%) occupations.
The red area, depicting LLM use from the Anthropic Economic Index, shows how people are using Claude in professional settings. The coverage shows AI is far from reaching its theoretical capabilities. For instance, Claude currently covers just 33% of all tasks in the Computer & Math category.
As capabilities advance, adoption spreads, and deployment deepens, the red area will grow to cover the blue. There is a large uncovered area too; many tasks, of course, remain beyond AI's reach—from physical agricultural work like pruning trees and operating farm machinery to legal tasks like representing clients in court.
Figure 3 shows the ten occupations most exposed under this measure. In line with other data showing that Claude is extensively used for coding, Computer Programmers are at the top, with 75% coverage, followed by Customer Service Representatives, whose main tasks we increasingly see in first-party API traffic. Finally, Data Entry Keyers, whose primary task of reading source documents and entering data sees significant automation, are 67% covered.
At the bottom end, 30% of workers have zero coverage, as their tasks appeared too infrequently in our data to meet the minimum threshold. This group includes, for example, Cooks, Motorcycle Mechanics, Lifeguards, Bartenders, Dishwashers, and Dressing Room Attendants.
How exposure tracks with projected job growth and worker characteristics
The US Bureau of Labor Statistics (BLS) publishes regular employment projections, with the latest set, published in 2025, covering predicted changes in employment for every occupation from 2024 to 2034. In Figure 4, we compare our job-level coverage measure to their predictions.
A regression at the occupation level weighted by current employment finds that growth projections are somewhat weaker for jobs with more observed exposure. For every 10 percentage point increase in coverage, the BLS’s growth projection drops by 0.6 percentage points. This provides some validation in that our measures track the independently derived estimates from labor market analysts, although the relationship is slight. Interestingly, there is no such correlation using the Eloundou et al. measure alone.
Figure 5 shows characteristics of workers in the top quartile of exposure and the 30% of workers with zero exposure in the three months before ChatGPT was released, August to October 2022, using data from the Current Population Survey.7 The groups are very different. The more exposed group is 16 percentage points more likely to be female, 11 percentage points more likely to be white, and almost twice as likely to be Asian. They earn 47% more, on average, and have higher levels of education. For example, people with graduate degrees are 4.5% of the unexposed group, but 17.4% of the most exposed group, an almost fourfold difference.
Prioritizing outcomes
With these exposure measures in hand, the question is what to look for. Researchers have taken different approaches. For example, Gimbel et al. (2025) track changes in the occupational mix using the Current Population Survey. Their argument is that any important restructuring of the economy from AI would show up as changes in distribution of jobs.¹ (They find that, so far, changes have been unremarkable.) Brynjolfsson et al. (2025) look at employment levels split by age group using data from the payroll processing firm ADP, while Acemoglu et al. (2022) and Hampole et al. (2025) use job posting data from Burning Glass (now Lightcast) and Revelio, respectively.
We focus on unemployment as our priority outcome because it most directly captures the potential for economic harm—a worker who is unemployed wants a job and has not yet found one. In this case, job postings and employment do not necessarily signal the need for policy responses; a decline in job postings for a highly exposed role may be counteracted by increased openings in a related one. Most harmful labor market developments of AI should arguably include a period of increased unemployment, as displaced workers search for alternatives. The Current Population Survey is well suited to tracking this, as unemployed respondents report their previous job and industry.
Initial results
We next study trends in unemployment, matching our occupation-level measures to respondents in the Current Population Survey.
A key question in interpreting our coverage measure is which workers should be considered treated? Should changes in employment be expected from just 10% task coverage? Gans and Goldfarb (2025) show that if an O-ring model best describes jobs, employment effects might be seen only when all tasks have some degree of AI penetration. Hampole et al. (2025) argue that mean exposure decreases labor demand, but concentration of exposure in only certain tasks can counteract this. And Autor and Thompson (2025) highlight the level of expertise required for the remaining tasks.
With an eye toward simplicity, and noting that we are most concerned with large impacts, we center our analysis on the idea that impacts should be felt most in the groups with the highest mean exposure. We compare workers in the top quartile of time-weighted task coverage to those in the bottom. If AI capabilities advance quickly, task coverage might be high for lower percentiles of coverage, which might make an absolute threshold more helpful. But we make the assumption that impacts should affect the most exposed workers first, and present results varying the cutoff we use to define treatment.
The upper panel of Figure 6 shows raw trends in the unemployment rate since 2016 for workers in the top quartile of exposure and the unexposed group. During COVID, the less AI-exposed workers—who are more likely to have in-person jobs—saw a much larger increase in unemployment. Since then, the trends have been largely similar between the two groups. The lower panel measures the size of the gap between the most and least exposed workers in a difference-in-differences framework, mirroring the findings from the raw data. The average change in the gap since the release of ChatGPT is small and insignificant, suggesting that the unemployment rate of the more exposed group has increased slightly but the effect is indistinguishable from zero.8
What kind of scenarios can this framework identify? Based on the confidence interval of the pooled estimate, differential increases in unemployment on the order of 1 percentage point would be detectable (this will change as new data comes in, so it is merely a ballpark estimate). If all workers within the top 10% were laid off, it would increase unemployment within the top quartile group from 3% to 43%, and it would increase aggregate unemployment from 4% to 13%.
A smaller but still concerning impact would be a scenario such as a “Great Recession for white-collar workers.” During the 2007-2009 Great Recession, unemployment rates doubled from 5% to 10% in the US. Such a doubling in the top quartile of exposure would increase its unemployment rate from 3% to 6%. This should be visible in our analysis as well. Note that our core estimate is based on differential changes in the unemployment rate in the exposed group compared to the less exposed group. If unemployment increased for all workers in parallel, we would not attribute this to AI advancements that still leave many tasks unaffected.
One group of particular concern is young workers. Brynjolfsson et al. report a 6—16% fall in employment in exposed occupations among workers aged 22 to 25. They attribute this decrease primarily to a slowdown in hiring rather than an increase in separations.9
We find that the unemployment rate for young workers in the exposed occupations is flat (see Appendix). But slowed hiring may not necessarily manifest as increased unemployment, since many young workers are labor market entrants without a listed occupation in the CPS data and may exit the labor force rather than appear as unemployed. To address hiring directly, we use the panel dimension of the CPS, counting the percent of young (22-25 year old) workers who begin a new job in a more vs. less exposed occupation over time. Figure 7 shows the monthly job finding rate (i.e., when a worker reports a job that they did not have in the previous month) for young workers, split by whether they are entering a high- vs. low-exposure occupation.
Apart from some large swings in 2020-2021, these series visually diverge in 2024, with young workers relatively less likely to be hired into exposed occupations. Job finding rates at the less exposed occupations remain stable at 2% per month, while entry into the most exposed jobs decreases by about half a percentage point. The averaged estimate in the post-ChatGPT era is a 14% drop in the job finding rate compared to that in 2022 in the exposed occupations, although this is just barely statistically significant. (There is no such decrease for workers older than 25.)
This may provide some signal of the early effects of AI on employment, and echoes the findings from Brynjolfsson et al. But there are several alternative interpretations. The young workers who are not hired may be remaining at their existing jobs, taking different jobs, or returning to school. A further data-related caveat is that job transitions may be more vulnerable to mismeasurement in surveys.10
This report introduces a new measure for understanding the labor market effects of AI and studies impacts on unemployment and hiring. Jobs are more exposed to AI to the extent that their tasks are theoretically feasible with LLMs and observed on our platforms in automated, work-related use cases. We find that computer programmers, customer service representatives, and financial analysts are among the most exposed. Using survey data from the US, we find no impact on unemployment rates for workers in the most exposed occupations, although there’s tentative evidence that hiring into those professions has slowed slightly for workers aged 22-25.
Our work is a first step toward cataloging the impact of AI on the labor market. We hope that the analytical steps taken in this report, especially around coverage and counterfactuals, will be easy to update as new data on employment and AI usage emerge. An established approach may help future observers separate signal from noise.
There are several improvements to be made to the present work. Our usage data will be incorporated in future updates, forming an evolving picture of task and job coverage in the economy. The Eloundou et al. metric could also be updated, to the extent that it is linked to LLM capabilities as of early 2023. And, given the suggestive results around young workers and labor market entrants, a key next step might be to look at how recent graduates with educational credentials in exposed areas are navigating the labor market.
Available here.
Acknowledgements
Written by Maxim Massenkoff and Peter McCrory.
With acknowledgements to: Ruth Appel, Tim Belonax, Keir Bradwell, Andy Braden, Dexter Callender III, Miriam Chaum, Madison Clark, Jake Eaton, Deep Ganguli, Kunal Handa, Ryan Heller, Lara Karadogan, Jennifer Martinez, Jared Mueller, Sarah Pollack, David Saunders, Carl De Torres, Kim Withee, and Jack Clark.
We additionally thank Martha Gimbel, Anders Humlum, Evan Rose, and Nathan Wilmers for feedback on earlier versions of this report.
@online{massenkoffmccrory2026labor, author = {Maxim Massenkoff and Peter McCrory}, title = {Labor market impacts of AI: A new measure and early evidence}, date = {2026-03-05}, year = {2026}, url = {https://www.anthropic.com/research/labor-market-impacts}, }
Acemoglu, Daron and Pascual Restrepo, "Robots and Jobs: Evidence from US Labor Markets," Journal of Political Economy, 2020, 128 (6), 2188–2244.
Acemoglu, Daron, David Autor, Jonathon Hazell, and Pascual Restrepo, "Artificial intelligence and jobs: Evidence from online vacancies," Journal of Labor Economics, 2022, 40 (S1), S293–S340.
Appel, Ruth, Maxim Massenkoff, Peter McCrory, Miles McCain, Ryan Heller, Tyler Neylon, and Alex Tamkin, "Anthropic Economic Index report: economic primitives," 2026.
Autor, David H, David Dorn, and Gordon H Hanson, "The China syndrome: Local labor market effects of import competition in the United States," American Economic Review, 2013, 103 (6), 2121–2168.
Autor, David H, & Thompson, N. (2025). Expertise. NBER Working Paper, (w33941).
Blinder, Alan S et al., "How many US jobs might be offshorable?," World Economics, 2009, 10 (2), 41.
Borusyak, Kirill, Peter Hull, and Xavier Jaravel, "Quasi-experimental shift-share research designs," The Review of Economic Studies, 2022, 89 (1), 181–213.
Brynjolfsson, Erik, Bharat Chandar, and Ruyu Chen, "Canaries in the coal mine? six facts about the recent employment effects of artificial intelligence," Digital Economy, 2025.
Eckhardt, Sarah and Nathan Goldschlag, "AI and Jobs: The Final Word (Until the Next One)," Economic Innovation Group (EIG), August 2025. Available at: https://eig.org/ai-and-jobs-the-final-word/
Eloundou, Tyna, Sam Manning, Pamela Mishkin, and Daniel Rock, "Gpts are gpts: An early look at the labor market impact potential of large language models," arXiv preprint arXiv:2303.10130, 2023, 10.
Fujita, S., Moscarini, G., & Postel-Vinay, F. (2024). Measuring employer-to-employer reallocation. American Economic Journal: Macroeconomics, 16(3), 1-51.
Gans, Joshua S. and Goldfarb, Avi, "O-Ring Automation," NBER Working Paper No. 34639, December 2025. Available at SSRN: https://ssrn.com/abstract=5962594
Gimbel, Martha, Molly Kinder, Joshua Kendall, and Maddie Lee, "Evaluating the Impact of AI on the Labor Market: Current State of Affairs," Research Report, The Budget Lab at Yale, New Haven, CT October 2025. Available at: https://budgetlab.yale.edu.
Graetz, Georg and Guy Michaels, "Robots at Work," Review of Economics and Statistics, 2018, 100 (5), 753–768.
Hampole, Menaka, Dimitris Papanikolaou, Lawrence DW Schmidt, and Bryan Seegmiller, "Artificial intelligence and the labor market," Technical Report, National Bureau of Economic Research 2025.
Handa, Kunal, Alex Tamkin, Miles McCain, Saffron Huang, Esin Durmus, Sarah Heck, Jared Mueller, Jerry Hong, Stuart Ritchie, Tim Belonax, Kevin K. Troy, Dario Amodei, Jared Kaplan, Jack Clark, and Deep Ganguli, "Which Economic Tasks are Performed with AI? Evidence from Millions of Claude Conversations," 2025.
Hui, Xiang, Oren Reshef, and Luofeng Zhou, "The short-term effects of generative artificial intelligence on employment: Evidence from an online labor market," Organization Science, 2024, 35 (6), 1977–1989.
Johnston, Andrew and Christos Makridis, "The labor market effects of generative AI: A difference-in-differences analysis of AI exposure," Available at SSRN 5375017, 2025.
Massenkoff, Maxim, "How predictable is job destruction? Evidence from the Occupational Outlook," 2025. Working Paper.
Ozimek, Adam, "Overboard on Offshore Fears," 2019. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3777307
Tamkin, Alex and Peter McCrory, "Estimating AI productivity gains from Claude conversations," 2025.
Tomlinson, K., Jaffe, S., Wang, W., Counts, S., & Suri, S. (2025). Working with AI: measuring the applicability of generative AI to occupations. arXiv preprint arXiv:2507.07935.
Job offshorability: Blinder et al. (2009) and Ozimek (2019); Government growth forecasts: Massenkoff (2025); Robots: Graetz and Michaels (2018) and Acemoglu and Restrepo (2020); China shock: Autor et al. (2013) and Borusyak et al. (2022).
Brynjolfsson et al. (2025) compare employment trends for workers in more versus less AI-exposed occupations, using the task exposure measures from Eloundou et al. (2023) and payroll data from ADP. Johnston and Makridis (2025) do a similar task-based analysis using US administrative data, but they aggregate treatment to the industry level. Hui et al. (2024) study how freelance jobs on Upwork responded to the release of ChatGPT and advanced image generation tools, comparing workers in directly affected categories to those in unaffected categories before and after each tool's release date. Hampole et al. (2025) instrument for firm-level AI adoption using historical university hiring networks: firms that historically recruited from universities whose graduates later entered AI-related roles faced lower adoption costs.
Our task- and occupation-level exposure measures can readily incorporate other usage data, and be extended to different countries. We intend to apply this methodology to new settings over time.
In their framework, “Directly exposed'” tasks were those that could be completed in half the time with an LLM (with a 2,000-word input limit and no access to recent facts). Tasks that were “exposed with tools” were those subject to the same speedup with an LLM that had access to software for, e.g., information retrieval and image processing. Tasks that were not exposed could not have their duration reduced by 50% or more using an LLM.
We use the previous two Anthropic Economic Index datasets, covering usage from August and November 2025. For ONET tasks that are highly semantically similar, we split the counts across them.
There are judgment calls involved at every step. Should the Eloundou et al. (2023) measure enter as {0, 0.5, 1} or something else? What determines "significant" use? How do we handle tasks which seem very similar to those with high usage, but are too rare to have been picked up specifically in the sampling for the Economic Index? How much more should automation workflows count compared to augmentation? A reassuring finding which we expand on in the Appendix is that the Spearman (rank-rank) correlation of job exposure across many resolutions to these questions is exceedingly high.
To match O*NET-SOC codes to occ1990 codes in the CPS, we use the crosswalk provided by Eckhart and Goldschlag (2025).
We explore this further in three ways in the Appendix. First, we ask whether the percentile cutoff that we use to define treatment matters, varying it from the median to the 95th percentile. In all cases, the
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み