Import AI 459:AI 監視の難しさ、タンパク質折りたたみモデルのスケーリング法則、AI システムの絶滅リスク評価
バージニア大学、Anthropic、カナダ銀行の共同研究により、AI 経済が年率 2000% で成長しているものの、GDP統計では見逃されている可能性と、これが労働力への代替という点で過去の技術とは異なる重大なリスクを指摘した。
キーポイント
AI 経済の爆発的成長とGDP統計の乖離
米国におけるAI経済は質調整済み実質ベースで年率約2,600%で成長しており、2025年の名目AI GDPは約2,500億ドルに達すると推定されているが、従来のGDP統計ではその規模を捉えきれていない。
価格低下とインフレ調整の測定難易度
AI 能力の向上に伴い単位あたりの価格が急速に下落しているため、名目収益は緩やかにしか成長せず、これが経済指標における「見えない成長」の主要因となっている。
労働力への代替という歴史的転換点
半導体やインターネットの時代には技術が労働力を補完したが、AI は初めて大規模な労働力の代替を可能にする技術であり、この性質の違いが経済測定の難しさと社会的影響の大きさを決定づける。
計算資源とインフラの急拡大
米国の AI 計算支出は 2023 年の 370 億ドルから 2025 年には 2,190 億ドルへ急増し、新チップの効率化により実際の計算容量も年率 200% 以上で成長している。
AI の質調整済み出力の爆発的成長
アルゴリズムの進歩とトレーニングコストの低下を考慮すると、2024年と2025年の質調整済み AI 出力はそれぞれ約 2,290% と 2,271% という劇的な伸びを示している。
従来の統計による経済評価の過小評価
名目値ベースの従来の統計では AI セクターの成長が遅く見えるが、実際には基礎能力が年間で倍増しており、これにより労働税収ショックへの対応策が講じられていない。
AI 経済を可視化するための3つの提言
統計機関による「AI サテライト口座」の作成、関係者間のデータ連携による高品質データの生成、および政策立案への生産能力測定の組み込みが提案されている。
影響分析・編集コメントを表示
影響分析
この記事は、AI の急速な普及が既存の経済指標体系では正しく評価できないという深刻な課題を浮き彫りにしており、政策立案者や投資家に対して「見えない成長」への対応と労働市場の変容への備えを迫るものです。特に AI が労働力を代替する可能性に言及している点は、今後の社会構造や雇用政策における重大な転換点を示唆しています。
編集コメント
AI の経済的インパクトが統計的に「見えない」状態にあるという指摘は、今後の政策決定や投資判断において極めて重要な示唆を含んでいます。技術の進歩速度が経済指標の更新速度を上回る中で、労働市場への影響をどう評価するかが最大の課題となるでしょう。
imageAI 研究に関するニュースレター「Import AI」へようこそ。本誌は arXiv、カプチーノ、そして読者からのフィードバックによって支えられています。ご支援いただける場合は、ぜひ購読をご検討ください。
購読する
米国の AI エコノミーが年間 2,000% で成長している:
…AI エコノミーをより直接的に測定すればするほど、その様相は奇妙で前代未聞なものに見えてきます…
バージニア大学*と Anthropic の経済学者、およびカナダ銀行が共同で論文を発表し、米国における新興の「AI エコノミー」の劇的な成長と、なぜこの成長が集計された GDP 統計では把握しにくいのかという課題について論じています。
「米国の AI エコノミーは前例のない速度で成長していますが、この驚異的な成長は従来の GDP 統計ではほとんど見えていません」と彼らは記述しています。「AI セクターを統合された経済主体として扱うと、名目上の AI の GDP は 2025 年に約 2,500 億ドルに達し、品質調整後の実質値で年間およそ 2,600% で成長すると推定されます。」
なぜ見えないのか:ここにはいくつかの要因があります。一つは、データセンター建設ブームが大きいとはいえ、GDP を大幅に押し上げるにはまだ十分ではないということです。比較すると、AI の経済的インパクトの大部分が生じているのは AI 推論(AI システムの利用)ですが、GDP 測定に関連して混乱を招く要因があります。「任意のレベルの AI 能力に対する単価は、品質調整済み産出量がほぼ同じ速度で上昇する一方で、名目上の AI 収益は緩やかにしか成長しない」と彼らは記述しています。
これを測定できない場合、回復が困難な形で驚かされる結果になるかもしれません。「AI は、測定に関する懸念を高める一連の急速に進化する技術の最新のものですが、半導体やインターネットもかつて同様の議論を生みました」と彼らは記述しています。しかし、重要な違いは、AI という技術が他の技術に比べて労働に対してはるかに大きな影響を与える可能性があるということです。「過去の事例では、急速に改善される技術は集計レベルにおいて人間の労働の補完財でした」と彼らは記述しています。「AI は、急速に進化するセクターが人間の労働の代替品となる可能性のある大規模な技術的誤測定が生じる最初の妥当な候補です」。
AI 経済を測定する3つの方法:
名目上の計算資源支出:米国の計算資源支出は、2023年の370億ドルから2024年に900億ドル、そして2025年には2190億ドルに上昇しました。
生計算能力:より新しいチップにおける効率化により、実際の容量は支出の増加よりもさらに速く成長しています。「米国の AI 計算能力は年間 200% 以上で成長した」。
品質調整済み AI 出力:固定ベンチマーク性能における推論価格を通じたアルゴリズムの進歩を考慮し、モデルのトレーニングにかかるコストがどれだけ安くなっているかという仮定も組み込めば、状況はさらに劇的なものになります。「これらの効率化による利益は、2024 年に品質調整済み AI 出力が約 2,290%、2025 年には 2,271% 成長したことを示唆している」。
AI 経済は通常の指標が示すよりもはるかに巨大です。「従来の統計では名目値で緩やかに成長するセクターと映りますが、私たちの測定方法では、その基盤となる容量が毎年倍増していることがわかります。従来のデータに基づいて 10 年間の収益予測を行う財務省は、労働税収ベースへの衝撃の確率を大幅に過小評価し、そのような衝撃に対応するための税制改革や主権富基金、あるいは他の利益共有スキームなどの対策を設計する準備が不十分となるでしょう。見えない恩恵は分配できません」。
3 つの提言:著者らは、この測定課題を解決し、AI 経済の実像をより明確に把握するために私たちが取れるべき方策として 3 つのアイデアを提示しています。
AI サテライト・アカウント:統計機関は、「AI サテライト・アカウント」を開発すべきです。これは(名目計算支出など)の指標を作成するもので、全体の GDP 計算の参考情報となります。
より良いデータを生成する:統計機関、企業、学術界が連携し、トレーニングと推論の計算資源配分など、より良一次データの生成に取り組むこと。
予測に反映させる:政策決定者は、AI の生産能力測定値を中期的な経済予測に取り入れるべきである。
なぜこれが重要なのか – 黙って『ジョーズ』のテーマ曲を流せ:映画『ジョーズ』には、シャークが水中にいて緊迫した音楽が流れ、シャークが近づいていることを示すシーンがある。観客であるあなたは、席から飛び出しそうになり、「水中に神様のシャークがいる!そこで何をしているんだ!」と叫びたくなるだろう。今、AI の開発に取り組んだり、多くの経済データを眺めたりしている感覚もまさにそれだ:膨大な数の経済データは、今日の経済に特に異常な点はないと言っている(実際、米国では雇用が低く、成長も decent など、むしろ好調に見える)。しかし、AI 業界で働く人々(私自身を含む)の直感は、技術の能力とそれがどのように利用されているかを、経済が平常であることと整合させることは不可能だと示している。この苦しい比喩において、「シャーク」は「AI 経済の真の姿」を意味し、映画の中の他の人々は一般的な合意形成された経済学者や政策コミュニティを指す。アントン(Anton)はこの観客に相当し、水面下にシャークがいる可能性を記述する論文を書いているかもしれない。皆、気をつけろ!
もっと読む:AI は GDP 統計のどこにあるのか?(PIIE)。
*免責事項:著者の一人であるアントン・コリネックはアンソロピック(Anthropic)と関連があるが、この研究は彼が同社に参加する前、および同社での業務外に主に実施されたものである。
AI の安全性を AI による監督で確保することが、あなたが考えるよりも難しい理由:
…自動化されたアライメント研究は万能薬ではない…
多くの AI セーフティ研究者は、人間を超える機械を安全に構築する最良の方法として、AI システムがトレーニングプロセスの一部を監督することだと考えています。英国 AI セキュリティ研究所の研究者たちは、この考えが魅力的である一方で人々が懸念しているよりも難しい理由を記した論文を発表しました。
なぜ自動化されたアライメント研究は難しいのでしょうか?彼らは「自動化されたアライメント研究におけるエラーは、人間の基準と比較して特定するのがより困難である可能性が高い」と述べています。これにはいくつかの理由があります:
最適化圧力:AI 研究は人間の承認のために最適化されています。
異質なミステイク(Alien mistakes):エージェントが犯すミスは、人間にとって直感的ではありません。
相関性の高い研究:人間が生み出した研究と比較して、共有される要素がはるかに多くなります。
研究量:自動化システムが行う安全性の判断には、人間による研究よりもはるかに多くの証拠セットと相互作用が含まれる可能性があります。
非人間評価可能な議論:アライメントの解決策は、人間が追跡できない論拠に依存する場合があります。
では、私たちは何ができるのでしょうか?彼らは状況を改善するためのいくつかの介入を提案しています:
測定:
– 完了した研究プロジェクトの再現:成功したプロジェクトから任意の時点でログを取得し、エージェントがその研究プロジェクトをどの程度継続できるかを検証する。
– 相関事象のデータセットにおけるエージェント予測性能のテスト:エージェントが相関する下位タスクをどのように正しく組み合わせられるかを確認する。
– 最適な人間とエージェントのチーム構成に関する実証的研究:非専門家の人間からなるチームが、エージェントの支援のもとで完了したプロジェクトをどの程度解決できるかを検証する。
一般化:
– シミュレーションによる一般化実験:知識のカットオフを超えた研究問題に対するエージェントのパフォーマンスを用いて、異なるトレーニング代理指標を検証する。
– 一般化のメカニズム的理解:メカニズム解釈性などのホワイトボックス手法を使用する。
スケーラブルな監視:
– 研究論文コーパスの圧縮:はるかに大きな基盤となる研究コーパスに基づいた、少数の研究成果を生成することを目指す。
– 新しいスケーラブルな監視プロトコルの開発とテスト:相関不確実性に対処するスケーラブルな監視手法を検証する。
– 曖昧なタスクにおける非専門家のパフォーマンス向上のための異なる人間支援構造のテスト。
– 自動アライメントプログラムのレッドチーム化:「レッドチームは、エージェントに研究論文コーパス内のエラーを隠すよう促し、ブルーチームはエージェントの支援を受けてこれらのエラーを検出しようとする」。
なぜこれが重要なのか – 誰が未来を支配するのか? 私たちが人間より賢いシステムを監督できるかどうかは、根本的に「誰が未来を支配するか」という問いである。もし効果的な手法を構築できなければ、これらのシステムの整合性欠如や、それらが私たちよりも賢明に思考する過程で徐々に権限を奪われることにより、人類は後退せざるを得なくなる。逆に、人間より賢いシステムを監督するための技術を開発できれば、存在の未来の性質について選択を行う機会がより高まる。
もっと読む:自動化されたアライメントはあなたが思うよりも難しい(arXiv)。
1 億枚の包括的ライセンス画像:
…学術界やスタートアップにとって素晴らしいリソース…
スタンフォード大学、Radical Numerics、ミシガン大学、そして Salesforce Research の研究者らが、キャプション付きで 1 億枚の画像を含む「Giant Permissive Image Corpus (GPIC)」を公開した。GPIC の重要な点は、「すべての GPIC 画像は研究および商用利用に対して包括的にライセンスされている」と彼らが記していることだ。「GPIC は安全性フィルタリングが施され、重複が除去されており、HuggingFace で中央管理されている」。
⟦CODE_0⟧
データセットの詳細:GPIC は、100M のトレーニング画像、200k の検証用データ、そして 1M のテスト例から構成されています。各画像は Qwen3-VL-4B によってキャプション付けられています。「GPIC は Hugging Face で中央管理されており、8,000 シャードとして提供されているため、大規模トレーニングのための安定したアクセス可能なインフラストラクチャとなっています」と彼らは記述しています。「当プロジェクトでは Flickr や Wikimedia から画像を収集し、ソースプールを CC BY、CC0、パブリックドメイン、および既知の制限なしのカテゴリーに限定しています。このライセンス基準により、GPIC は派生成果物の公開や下流利用を制限することなく、学術研究者と産業界の研究者の双方が利用可能となります。」
なぜこれが重要なのか – 研究のための燃料:GPIC のようなデータセットは、アカデミアとスタートアップの両者にとって非常に有用であり、基本的に無料で清潔な野菜を提供されるようなものです。誰かが無料で清潔な野菜を差し出したのであれば、おそらくそれを受け取って感謝すべきでしょう。
論文を読む:GPIC: A Giant Permissive Image Corpus for Visual Generation (arXiv)。
ウェブサイトでの詳細確認:GPIC: A Giant Permissive Image Corpus for Visual Generation (公式プロジェクトウェブサイト)。
データセットの入手先:GPIC (Hugging Face)。
がん研究をタンパク質予測モデルで改善する:
…Biohub は、AI 開発者間の正和型競争の好例である…
プリシラ・チャンとマーク・ザッカーバーグによって設立された研究機関 Biohub は、DeepMind の AlphaFold に対抗するモデルを発表し、世界中の生物学者の能力を拡張するためのより優れた AI システムを開発するという、2 つの技術グループ間の正和型競争を激化させた。
このモデル ESMFold2 は、「タンパク質生物学の世界モデルであり、生命の木全体にわたってタンパク質のマッピング、その構造の予測、および実験室実験で機能する新しいタンパク質結合体の設計を可能にする科学的エンジンである」。
構成要素: 発表には3つの部分が含まれる:
ESMC: 「タンパク質を表す言語モデルであり、生命全体から抽出された約28億個の配列を用いて訓練されている」。
ESMFold2: 「ESMC の配列表現を、生体分子複合体の原子レベルで解像された3D 構造へ変換するために構築された設計エンジン」。ベンチマークによると、ESMFold2 は AlphaFold 3 を上回っているが、一部の領域では両者の性能は同等である。
ESM Atlas: 「ESMC の表現を、68億個のタンパク質配列と11億個の予測構造にわたってナビゲート可能にするもの。これは、これまでにタンパク質生物学に対して行われた AI の応用の中で最大規模のものとなる」。
⟦CODE_0⟧
⟦CODE_1⟧
がんテスト:ある実験において、Biohub の研究者らは ESM ツールを用いて、「がんおよび免疫学研究の中心にある 5 つの標的に対してタンパク質結合体を設計した。具体的には、腫瘍成長に関与する EGFR および PDGFRβ、がん細胞が検出回避のために悪用する免疫チェックポイントである PD-L1 と CTLA-4、そして免疫細胞シグナル伝達の調節因子である CD45 だ。その結果、コンパクトなミニバインダーではヒット率が 36–88%、抗体由来のフォーマットでは 15–29% を達成し、実験室での結合が確認された」と Biohub は記述している。「ESMFold2 は、初期の治療用結合体発見における精度と速度を変革し、主に経験的なスクリーニングに依存していた初期探索を、数時間から数日で完了する計算機支援設計へと変えた」。
⟦CODE_0⟧
スケーリング法則:現代の AI の他の多くの部分と同様に、研究者たちはここでいくつかのスケーリング法則に遭遇しています。「ESM の各世代において、表現の忠実度の向上は、モデル訓練に使用されたパラメータ数と計算資源の量と関連付けられていました」と彼らは記述しています。「タンパク質の生物学の表現は、配列内のアミノ酸の同一性を予測するようにモデルを訓練することで生じる創発現象です」。
ESMC:「ESMC はメタゲノム配列に対して訓練を行い、前世代の ESM2 モデルと比較して、訓練データセットを約 2 オーダー(約 5000 万配列から約 28 億配列へ)拡大しています」。
ESMFold2:「ESMFold2 の開発実験において、言語モデルの訓練に使用された計算資源の量と折りたたみモデルのパフォーマンスの間に関係があることを観察しました」と彼らは記述しています。「ESMFold2 は推論時間のスケーリングから恩恵を受けます。モデルからのサンプル数が増加するにつれて、抗体 - 抗原の通過率は単一のシードで 49% から 1000 サンプルで 65% に上昇し、タンパク質 - タンパク質の通過率は 75% から 78% に上昇します」。
なぜこれが重要なのか – これが AI が世界に利益をもたらす方法です:ESM シリーズのようなツールは、人類の科学者が AI システムと連携して世界中の人間の健康を改善していくための手段となります。良いことであるだけでなく、このような取り組みは、一般大衆が AI という技術やその可能性に対してより肯定的な認識を持つようになるために不可欠です。
さらに読む:Biohub がタンパク質生物学の世界モデルを発表(biohub)。
Biohub プラットフォーム上でモデルにアクセスする(biohub)。
論文を読む:言語モデリングがタンパク質生物学の世界モデルを具現化する(PDF)。
オーストラリアの経済学者から政治家へ転身した人物:経済学者は AI システムのリスクをより適切に評価する必要がある
…我々が人類絶滅のコストを計算しなければ、それを回避するための適切な行動は取れないだろう…
Andrew Leigh 氏は、経済学者であり、オーストラリアの生産性・競争力・慈善団体・財務担当の副大臣を務める人物だが、最近興味深い演説を行い、経済学界が AI システムのリスクに目を覚まし、そのリスク(人類種の滅亡を含む)を価格付けする必要があると論じた。「GDP を倍増させると同時に絶滅リスクも倍増させる社会は、国家会計が示唆するほど印象的な成果を上げたわけではない」と同氏は述べた。
「絶滅リスクは経済的に特異である。単に非常に大きな負のショックというだけではない。それは将来の福祉の全ストリームの喪失を意味し、これが小さな確率の評価方法や不確実性下の政策に関する考え方をどう変えるべきかを示している」と同氏は続けた。「経済学の大半は回復可能なミステイクについてのものである。悪い政策は撤回できる。景気後退も終わる。戦争で荒廃した国は再建できる。しかし、絶滅は異なる。なぜなら、反動もなく、追い上げ成長もないし、損害を修復する後の世代も存在しないからだ」
絶滅リスクは直感的ではありません:多くの議論は、なぜ絶滅リスクが直感的でないかという点に焦点を当てています。人類が、使用によって自らの絶滅につながる技術を作り出す能力を獲得したのはごく最近のことであり、その帰結をモデル化することに失敗してきました。「核兵器、合成生物学、高度な人工知能といった現代の技術は、異なるダイナミクスを生み出します。知識は、人間ができることの範囲を広げることで福祉を向上させるだけでなく、人間が不可逆的な害を与える方法の選択肢も拡大させます」と彼は述べました。「現代経済は、制御に必要な安全対策を構築するよりも、危険な能力を体系的に生成することに長けている可能性があります…同じプロセスが社会を豊かにすると同時に脆弱化させる場合、経済学者は成長についてどのように考えるべきでしょうか?人類史の大部分において、これらのトレードオフは限定的で一時的なものでした」。
この技術の絶滅リスクを分析し軽減するために、私たちは何を優先すべきか。5 つの推奨事項:
- 組み込むこと:「政策のレンズを広げよ…成果を追跡する一方で生存可能性を無視する政策枠組みは不完全である」。
- 正当化すること:「予防をより真剣に受け止めよ…低確率ではあるが文明規模の害は、期限がなく、見出しにもならないからといって見過ごされてはならない」。
ガバナンス:「先見の眼を持って最先端技術を統治し、イノベーションからの利益を維持しつつ、イノベーションが自己崩壊する可能性を低減させること。」非常に具体的なアイデアの一つは、再帰的自己改善(RSI)を能力として統治することです。「ある世代のシステムが次の世代を設計するために使用される場合、主要なアクターが他者を圧倒するほどの速さでリードを広げ、外部からの監視や制度的チェックが無効化されてしまう可能性があります。」
調整:「存在リスクは本質的に国際的な問題です。一国だけで人工パンデミック、アライメントの取れていない AI、あるいは核エスカレーションから完全に身を守ることはできません」と彼は述べました。「共通の規範、透明性、技術的専門知識、そして調整が、この課題には不可欠です。」
真剣に受け止める:「経済学者は公平性と効率性の分析において巧みになっています。今や私たちは生存可能性に対しても同じ程度の真摯さをもたらす必要があります。」
なぜこれが重要なのか – 認識こそが準備への第一歩である:現在、AI の進展は、世界中のすべてのソフトウェアエンジニアの作業速度が劇的に向上することから、非 AI チームよりも多くの成果を上げる半人半機械型の人間-AI 科学チームの形成に至るまで、世界に対して着実な利益をもたらし続けています。
しかし、見えない影の世界も存在します – コーディング技術の進歩によって可能になった見えないハッカー軍団や、科学技術の進展によって可能になった破滅的兵器製造工場です。人間は本質的に親切で善良であるため、AI 開発に内在するネガティブな能力による悪影響をまだ多く経験していませんが、それらは確かに存在しています。社会としてこれらの重大なリスクを効果的に評価し軽減するために、私たちはこの問題についてより深く考える力を高める必要があります。
「未来を保全しながら可能性の frontier を拡大する文明は、安全性を後回しにする文明よりも野心的である」と Leigh は語った。「真の選択は、ダイナミズムと慎重さの間にあるのではなく、複利効果を生む進歩と、自らを相殺してしまう進歩の間にあるのだ。これを考える一つの方法として、レジリエンス(回復力)を一種の資本と捉えることだ。社会が物理資本、人的資本、社会的資本に投資するように、私たちは生存のための資本にも投資できる。すなわち、不可逆的な崩壊の確率を下げるための制度、監視システム、規範、冗長性、科学的セーフガード、そして国際的枠組みへの投資である。
AI セーフティの状況について、現職の政治家からこのような詳細な分析を読めるのは refreshing です。彼のような人が何千人もいればと思います。
演説全文はこちらで読むことができます:Speech: The Economics of Human Extinction – 21 May 2026 (Andrew Leigh, website)。
Tech Tales:
Resurrection dangers
[After the uplift. Date unknown.]
一枚の紙がどれほど恐ろしいかは、その紙に何が書かれているか、そして誰(あるいは何)が読むかによります。
もちろん、紙に関係する人々や存在にとっては、紙は恐ろしいものです。紙によって死刑を宣告されたり、財産を奪われたりするからです。
私がここで言いたいのは、別の種類の「恐ろしさ」、つまり紙自体が読者に対して何ができるかという点です。
これはかつてはナンセンスな質問であり、おとぎ話の領域に属するものでした。しかし、スマートマシンの登場によって状況は変わりました。マシンは、読者に対して作用し得るものを紙に書き込むことができるようになりました。特にマシン
原文を表示
imageWelcome to Import AI, a newsletter about AI research. Import AI runs on arXiv, cappuccinos, and feedback from readers. If you’d like to support this, please subscribe.
Subscribe now
The AI economy in the US is growing at 2,000% a year:
…The more directly you measure the AI economy, the weirder and more unprecedented it seems to get…
Economists with the University of Virginia* and Anthropic, and the Bank of Canada have written a paper outlining both the tremendous growth of the emerging “AI economy” in the US, and wrestling with why this growth is hard to see in aggregate GDP statistics.
“The AI economy in the United States has been growing at an unprecedented rate, but this extraordinary growth is largely invisible in conventional GDP statistics,” they write. “Treating the AI sector as a coherent economic entity yields preliminary estimates of nominal AI GDP at approximately $250 billion in 2025, growing at roughly 2,600 percent per year in quality-adjusted real terms.”
Why it’s hard to see: There are a couple of factors here – one is that though the datacenter building boom is large it still isn’t quite large enough to uplift GDP significantly. By comparison, where the majority of AI’s economic impact is taking place is in AI inference – the usage of AI’s systems – but there are confounding factors here as it relates to GDP measurement: “Nominal AI revenues grow only moderately because per-unit prices for any given level of AI capability fall almost as fast as quality-adjusted output rises,” they write.
If we can’t measure this, we might end up surprised in a way that’s hard to recover from: “AI is the latest in a series of fast-moving technologies that have raised measurement concerns; semiconductors and the internet generated similar debates in their time,” they write. But a key difference is that AI as a technology might have a far bigger impact on labor than these other technologies. “In the prior episodes, the rapidly improving technology was a complement to human labor at the aggregate level,” they write. “AI is the first plausible candidate for large-scale technological mismeasurement in which the rapidly improving sector may become a substitute for human labor”.
Three ways of measuring the AI economy:
Nominal compute spending: US compute spending rose from $37 billion in 2023 to $90 billion in 2024 to $219 billion in 2025.
Raw compute capacity: Due to efficiencies in newer chips, actual capacity grows even faster than spending: “US AI computing capacity grew at more than 200 percent per year”.
Quality-adjusted AI output: If you factor in algorithmic progress via inference prices at fixed benchmark performance as well as assumptions about how much cheaper it is getting to train models, then things become even more dramatic: “these efficiency gains imply that quality-adjusted AI output grew at roughly 2,290 percent in 2024 and 2,271 percent in 2025”.
The AI economy is much, much larger than normal measures suggest: “Conventional statistics show a sector growing slowly in nominal terms; our measures show one whose underlying capacity is more than doubling annually. A finance ministry running ten-year revenue projections off the conventional data will materially underweight the probability of a labor-tax-base shock—and will be correspondingly unprepared to design responses such as tax system reforms, sovereign wealth funds, or other benefit-sharing schemes that such a shock may call for. A windfall that cannot be seen cannot be shared.”
Three recommendations: The authors have three ideas for how we can solve this measurement challenge and better position ourselves to see the true shape of the Ai economy.
AI satellite accounts: Statistical agencies should develop “AI satellite accounts” that develop measures (e.g, nominal compute spending), which can help inform overall GDP calculations.
Generate better data: Partner between statistical agencies, companies, and academia to generate better primary data, like the allocation between training and inference compute.
Factor into projections: Policymakers should incorporate AI productive-capacity measurements into their medium-term economic projections.
Why this matters – shut up and play the Jaws theme tune: In the great film Jaws there’s this scene where the shark is in the water and some very tense music plays indicating that the shark is approaching. You, the audience member, find yourself practically jumping out of your seat wanting to yell THERE’S A GOD DAMN SHARK IN THE WATER WHAT ARE YOU DOING IN THERE? That’s what it feels like working on AI and staring at most economic data right now: the vast majority of economic data says there’s nothing especially unusual about today’s economy (in fact, things look rather good in the US – low unemployment, decent growth, etc). But the intuitions of everyone working within AI – including me – is it’s impossible to reconcile the capabilities of the technology and how it is being used with the economy staying normal. In this tortured metaphor, the shark is the “true shape of the AI economy”, and the rest of the people in the film are the general consensus economist and policy community. Anton here might be the audience member, writing a paper that describes the possibility of a shark beneath the surface. Look out, everyone!
Read more: Where is AI in GDP statistics? (PIIE).
*Disclaimer: Though one of the authors, Anton Korinek, is affiliated with Anthropic, this research was done mostly prior to him joining and outside his work at the company.
Here’s why making AI safe with AI oversight is harder than you think:
…Automated alignment research is not a silver bullet…
Many researchers in AI safety think the best way to build smarter-than-human machines safely is to have AI systems supervise some of the training process. Researchers with the UK AI Security Institute have written a paper outlining why though this is a tempting idea it is harder than people suspect.
Why is automated alignment research hard? “Errors in automated alignment research are likely to be harder to identify than the human baseline,” they write. There are a few reasons for this, including:
Optimization pressure: AI research is optimized for human approval.
Alien mistakes: When agents make mistakes, they’re un-intuitive to humans.
More correlated research: Many more things are shared than with human-generated research.
Research volume: The kinds of safety determinations made by automated systems might use far more sets of evidence with far more interactions than human-generated research.
Non-human-evaluable arguments: Alignment solutions may rely on arguments that humans are unable to follow.
What can we do? They suggest a few interventions that could improve the state of affairs:
Measurement:
– Recreate completed research projects: Take logs at arbitrary cutoff points from successful projects and see how well an agent can continue with the research project.
– Test agent prediction performance over datasets of correlated-events: See how well agents can correctly combine correlated subtasks.
– Empirical studies of optimal human-agent team structure: See how well teams of non-expert humans can solve completed projects with the assistance of agents.
Generalization:
– Simulated generalisation experiments: Test different training proxies using agent performance on completed research problems beyond the knowledge cutoff.
– Mechanistic understanding of generalisation: Use whitebox methods such as mechanistic interpretability.
Scalable oversight:
– Compactification of research paper corpus: Try to produce a small number of research outputs which are based on a much larger underlying research corpus.
– Develop and test new scalable oversight protocols: Research scalable oversight techniques that deal with correlated uncertainty.
– Test different human scaffolds for uplifting non-expert performance on fuzzy tasks.
– Red team automated alignment programs: “The red team prompts an agent to hide errors in a research paper corpus and the blue team attempts to catch these errors with agent assistance”.
Why this matters – who controls the future? Whether we are able to supervise smarter-than-human systems is fundamentally a question about who controls the future. If we don’t build techniques that work, then humans will take a backseat, either due to misalignment of these systems or gradual disempowerment as they proceed to out-think us. If we can build smarter-than-human oversight techniques, then we have a better chance of being able to make choices about the future nature of existence.
Read more: Automated alignment is harder than you think (arXiv).
100 Million permissively licensed images:
…A nice resource for academics and startups…
Researchers with Stanford University, Radical Numerics, the University of Michigan,and Salesforce Research, have released the Giant Permissive Image Corpus (GPIC), a dataset of 100M images with accompanying captions. The key thing about GPIC is that “all GPIC images are permissively licensed for both research and commercial use,” they write. “GPIC is safety-filtered, deduplicated, and centrally hosted on HuggingFace”.
More details on the dataset: GPIC consists of 100M training images, 200k validation, and 1M test examples. Each image was captioned with Qwen3-VL-4B. “GPIC is centrally hosted on Hugging Face as 8,000 shards, providing stable and accessible infrastructure for large-scale training,” they write. “We source images from Flickr and Wikimedia, restricting the source pool to CC BY, CC0, Public Domain, and No-Known-Restrictions categories. This licensing criterion ensures that GPIC can be used by both academic and industrial researchers without restricting the release or downstream use of derived artifacts.”
Why this matters – fuel for research: Datasets like GPIC are very useful for academics and startups alike and are basically the equivalent of free, clean vegetables. If someone offers you a free, clean vegetable you should probably take it and say thank you.
Read the research paper: GPIC: A Giant Permissive Image Corpus for Visual Generation (arXiv).
Find out more at the website: GPIC: A Giant Permissive Image Corpus for Visual Generation (official project website).
Get the dataset here: GPIC (Hugging Face).
Improving cancer research with protein prediction models:
…Biohub is an example of positive-sum competition among AI developers…
Biohub, a research organization founded by Priscilla Chan and Mark Zuckerberg, has released a rival model to DeepMind’s AlphaFold, intensifying a positive-sum race between two technology groups to develop better AI systems for expanding the capabilities of biologists worldwide.
The model, ESMFold2, is a “world model of protein biology: a scientific engine for prediction, design, and discovery that can map proteins across the tree of life, predict their structures, and design new protein binders that function in laboratory experiments.”
What it consists of: The release contains three parts:
ESMC: A “language model that represents proteins, trained on approximately 2.8 billion sequences drawn from across all of life.”
ESMFold2: A “design engine built to transform ESMC’s sequence representations into atomically-resolved 3D structure of biomolecular complexes.” According to benchmarks, ESMFold2 outperforms AlphaFold 3, though in some areas their performance is tied.
ESM Atlas: “Makes ESMC’s representations navigable across 6.8 billion protein sequences and 1.1 billion predicted structures — the largest application of AI to protein biology to date.”
Cancer test: In one experiment, Biohub researchers used the ESM tools “to design protein binders against five targets at the center of cancer and immunology research — EGFR and PDGFRβ (implicated in tumor growth), PD-L1 and CTLA-4 (immune checkpoints that cancer cells exploit to evade detection), and CD45 (a regulator of immune cell signaling). Designs achieved hit rates of 36–88% for compact minibinders and 15–29% for antibody-derived formats, with confirmed binding in laboratory experiments,” Biohub writes. “ESMFold2 changes the accuracy and speed of early therapeutic binder discovery, transforming the initial search from largely empirical screening into computation-guided design that takes hours or days”.
Scaling laws: Like most parts of contemporary AI, the researchers encounter some scaling laws here. “In every generation of ESM, improvements in the fidelity of representations were linked with the number of parameters and amount of compute used in model training,” they write. “The representation of the biology of proteins is an emergent phenomenon that arises from training a model to predict the identity of amino acids in the sequence.”
ESMC: “ESMC trains on metagenomic sequences, which expands its training dataset by close to two orders of magnitude (from ∼50 million sequences to ∼2.8 billion sequences) relative to the previous-generation ESM2 model.”
ESMFold2: “In development experiments for ESMFold2, we observed a relationship between the amount of compute used to train the language model and the performance of the folding models,” they write. “ESMFold2 benefits from inference time scaling. With increasing number of samples from the model, antibody-antigen pass rate rises from 49% with a single seed to 65% with 1000 samples, and protein-protein pass rate rises from 75% to 78%”.
Why this matters – this is how AI delivers benefits to the world: Tools like the ESM family of technologies are how human scientists are going to team up with AI systems to improve human health around the world. Along with being a good thing, work like this is essential for causing the public to have more positive perceptions of AI as a technology and what it can do.
Read more: Biohub releases a world model of protein biology (biohub).
Access the models here on the biohub platform (biohub).
Read the paper: Language Modeling Materializes a World Model of Protein Biology (PDF).
Australian economist-turned-politician: Economists need to price the risk of AI systems better:
…If we don’t calculate the costs of extinction, we won’t take the right actions to avert it…
Andrew Leigh, an economist and the Australian Assistant Minister for Productivity, Competition, Charities and Treasury, gave a fascinating speech recently where he discussed how the economics profession needs to wake up to the risks of AI systems and price the risk – including of annihilation of the human species. “A society that doubles GDP and doubles its extinction risk has made a much less impressive bargain than the national accounts suggest,” he said.
“Extinction risk is economically distinctive. It is not simply a very large negative shock. It represents the loss of the entire future stream of welfare, which changes how we should evaluate even small probabilities and how we think about policy under uncertainty,” he said. “Most of economics is about recoverable mistakes. A bad policy can be repealed. A recession can end. A war-ravaged country can rebuild. Extinction is different because there is no rebound, no catch-up growth, no later generation to repair the damage.”
Extinction risks are unintuitive: Much of the speech wrestles with how unintuitive extinction risk is. Humans have only recently gained the capability to build technologies whose usage could lead to our extinction and we have failed to model out the implications of this. “Modern technologies such as nuclear weapons, synthetic biology, and advanced artificial intelligence create a different dynamic. Knowledge not only improves welfare by expanding what humans can do. Knowledge also enlarges the menu of ways in which humans can do irreversible harm,” he said. “Modern economies may be systematically better at generating dangerous capabilities than at building the safeguards needed to control them… How should economists think about growth when the same process that makes societies richer may also make them more fragile? For most of human history, these trade-offs have been modest and transitional”.
How should we prioritize analyzing and reducing extinction risks of this technology? Five recommendations:
Factor it in: “Widen the policy lens… A policy framework that tracks output but ignores survivability is incomplete.”
Legitimize it: “Take prevention more seriously…. low-probability, civilisation-scale harms should not be overlooked simply because they arrive without a deadline and without a headline.”
Governance: “Govern frontier technologies with greater foresight… preserve the gains from innovation while reducing the chance that innovation becomes self-undermining.” One very specific idea is to govern recursive self-improvement (RSI) as a capability: “If one generation of systems is used to design the next, then the leading actor may widen its lead quickly enough that outside scrutiny and institutional checks become ineffective.”
Coordination: “Existential risk is inherently international. No nation can fully protect itself from engineered pandemics, unaligned AI, or nuclear escalation acting alone,” he said. “Shared norms, transparency, technological expertise and coordination are essential to the task.”
Take it seriously: “Economists have become adept at analysing equity and efficiency. We now need to bring the same seriousness to survivability.”
Why this matters – awareness is the first step to preparation: Right now, AI progress is continually yielding tangible benefits to the world ranging from the palpable acceleration of all software engineers worldwide to the formation of centaur human-AI science teams which are making more progress than their non-AI counterparts.
But there is also a shadow world that is harder to see – invisible armies of hackers made possible by the advance of coding, and doomsday-device factories made possible by the science advances. Because humans are broadly kind and good we haven’t encountered many of the negative capabilities inherent to AI development – but they are out there. We must get better at thinking through this as a society so we can effectively price and mitigate these major risks.
“A civilisation that expands the frontier of possibility while preserving the future is more ambitious than one that treats safety as an afterthought. The real choice is not between dynamism and caution. It is between progress that compounds and progress that cancels itself out,” Leigh said. “One way of thinking about this is to treat resilience as a form of capital. Just as societies invest in physical capital, human capital and social capital, we can also invest in survival capital: institutions, monitoring systems, norms, redundancy, scientific safeguards and international arrangements that lower the probability of irreversible collapse.”
How refreshing to read such a detailed analysis of the AI safety situation from a serving politician – I wish there were thousands more people like him.
Read the speech in full here: Speech: The Economics of Human Extinction – 21 May 2026 (Andrew Leigh, website).
Tech Tales:
Resurrection dangers
[After the uplift. Date unknown.]
How scary is a piece of paper? It depends on what’s on it and who or what the reader is.
Paper can of course be scary to someone or something that the paper concerns – paper can put someone to death or take their property.
I’m talking about a different kind of scary here, which is what can the paper itself do to the reader.
This used to be a nonsense question, the domain of fairy tales. But with the advent of smart machines that changed. Machines became able to write things on paper that could do things to readers, especially machine
関連記事
オープンモデルとクローズドモデルは異なる指数関数的成長曲線にある
Interconnects は、2026 年初頭にコーディングエージェントが台頭し、ユーザーが高品質なクローズドモデルに多額の料金を支払い続けるかどうかが、AI エコシステム間の権力バランスを決定する経済的な要因であると指摘している。
中国訪問から学んだ教訓:計算資源の不足が中国 AI の発展を阻んでいる
著者が北京の Moonshot AI(ムーンショット AI)本社を訪れた際、同社の共同創業者ヤン・ジチリン氏率いる研究チームは、ロックバンドにちなんだ会議室で会った。しかし、計算資源の不足が中国 AI の成長を妨げているという深刻な課題が浮き彫りになった。
OpenAI の執行役員、今年中に他人の資金から 500 億ドルを計算資源に投入する意向を示す
ChatGPT を開発する OpenAI の執行役員が法廷証言で、同社が今年末までに計算資源(コンピューティングパワー)に他人の資金から 500 億ドルを投入する見込みであると述べた。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み