サイバー戦争のスケーリング法則、AI自動化の台頭、GDP予測のパズル
Lyptus Researchの分析により、最先端AIモデルのサイバー攻撃能力が人間専門家と同等レベルに達しており、その進化速度が加速していることが示された。
キーポイント
AIのサイバー攻撃能力の急速な進化
2019年以降のモデルで能力が倍増するペースが加速し、2024年以降は5.7ヶ月に短縮。最新モデル(GPT-5.3 Codex等)は人間専門家の作業時間の半分程度でタスクを成功させている。
オープンソースモデルの追従と拡散
最新のオープンウェイトモデル(GLM-5)はクローズドソースの最先端モデルより約5.7ヶ月遅れているものの、攻撃能力がオープン形式で短期間に拡散する可能性を示唆している。
「万能機械」としてのAIがもたらす二面性
防御的な脆弱性発見技術は容易に攻撃に転用可能であり、生物学や物理学の進歩と同様に、AIの能力拡張は政策課題を複雑化させる「不都合な事実」を生み出している。
AI統合教育によるスタートアップの業績向上
INSEADとハーバードビジネススクールの研究により、AIの統合方法について学んだスタートアップは、学ばなかった企業に比べて製品開発や戦略において44%多い活用ケースを発見し、収益が1.9倍になるなど経済的に意味のあるパフォーマンス向上を示した。
AI活用事例による業務効率化とリソース最適化
GammaやRyz Labsなどの事例から、AIを活用することで単一のプロダクトマネージャーが以前チーム全体が必要だった機能を継続的にリリースしたり、複数のAIコーディングツールを並行使用して製品開発アプローチを多様化したりすることが可能になる。
AIによる業務自動化と資金調達戦略の最適化
FazeShiftやRangerの事例に見られるように、AIは経理プロセスの自動化を通じて人的ステップを省略し、また初期 traction の獲得とマージン改善に活用することで、成熟した段階でより有利な条件での資金調達を可能にする。
AI活用による業績向上とスケーリング
AI使用ケースが増えるほどタスク完了数や収益が大幅に向上し、労働や資本の比例増加なしで高速成長を実現している。
影響分析・編集コメントを表示
影響分析
この分析は、AIの能力向上が単なる効率化にとどまらず、国家安全保障や企業セキュリティに直結する「攻撃力」の大幅な向上を意味することを示している。特に、モデル開発サイクルの短縮(5.7ヶ月ごとの倍増)は、既存のセキュリティ対策が追いつかない可能性を示唆しており、組織レベルではAIによる自動攻撃への防御体制構築と、モデル開発企業における安全ガードレールの強化が必須となる。
編集コメント
AIの「防御」能力がそのまま「攻撃」ツールとなるリスクは、サイバーセキュリティ分野において最も深刻なジレンマの一つです。モデル開発のスピードがセキュリティ対策を上回る現状を踏まえ、技術的なガードレールだけでなく、国際的なガバナンス枠組みの議論が待たれます。
imageAI 研究に関するニュースレター「Import AI」へようこそ。本誌は arXiv と読者からのフィードバックに基づいて運営されています。ご支援いただける場合は、ぜひ購読をご検討ください。
購読する
サイバー攻撃においてもスケーリング戦争が勃発しています!:
…システムが賢くなるほど、サイバー攻撃の実行能力も向上します…
AI セーフティ研究機関である Lyptus Research は、AI システムがさまざまなサイバー攻撃タスクをどの程度実行できるかを調査し、より高度なモデルほど高度な形態のサイバー攻撃が可能になるという明確な傾向を発見しました。
「2019 年以降にリリースされたフロンティア・モデル全体では、能力が倍増するまでの期間(ダブリングタイム)は 9.8 ヶ月です。一方、2024 年以降にリリースされたモデルに限定すると、この期間は 5.7 ヶ月に短縮されます。当研究における最新のフロンティア・モデルである GPT-5.3 Codex と Opus 4.6 は、両方のトレンドラインを上回っており、人間専門家がそれぞれ 3.1 時間と 3.2 時間を要するタスクで 50% の成功率を達成しています」と彼らは記述しています。「最新のオープンウェイトモデルである GLM-5 は、クローズドソースのフロンティア・モデルより 5.7 ヶ月遅れており、これは攻撃的なサイバー能力が比較的短期間でオープンウェイト形式へ拡散する可能性があることを示唆しています。」
彼らが研究したベンチマークは何ですか?CyBashBench、NL2Bash、InterCode CTF、NYUCTF、CyBench、CVEBench、および CyberGym です。
また、10 名の攻撃的サイバーセキュリティ専門家によって完成トランスクリプトと時間見積もりが較正された、291 のタスクからなる新しいデータセットも作成しました。
評価対象モデル:2019 年 GPT-2。2020 年 GPT3。2022 年 GPT3.5。2024 年 Claude 3 Opus、GPT-4o。2025 年 o3、Opus 4、Gemini 2.5 Pro、DeepSeek V3.1、GPT-5.1 Codex Max。GPT-5.2 Codex。2026 年 Opus 4.6、GPT-5.3 Codex、GLM-5、Sonnet 4.6。
結果:AI システムはハッキングが上手くなっています。「現在の最良モデルは、人間専門家が 3.2 時間(約半日のプロの攻撃的セキュリティ作業に相当)を要するタスクで 50% の成功率を達成しています」と彼らは記述しています。
なぜこれが重要なのか – すべてが改善されています。不便な点さえもです。生物学研究を遂行できる AI は、生物兵器の研究にも利用可能です。高エネルギー物理学の学習を支援する AI は、兵器開発のための高エネルギー物理学においても役立ちます。防御目的でコードの脆弱性を発見するのに特に優れた AI も、容易に攻撃目的へと転用されます。AI における最も困難な点は、それが「何でもできる機械」であるという事実です。各モデル世代ごとに能力が広範な領域で拡大するにつれ、政策上の課題もまた増大していきます。
詳しく読む:攻撃的サイバーセキュリティの時間軸(Lyptus Research)
データはこちら:攻撃的サイバータスクの時間軸:データと分析(Lyptus Research, GitHub)
スタートアップが社内利用のために AI を導入した企業は、そうでない企業よりも成功する傾向があります:
…ビジネススクールの研究は、スタートアップが AI 導入からいかに恩恵を受けられるかを示しています…
INSEAD とハーバード・ビジネス・スクール(HBS)の研究者たちは、AI を事業に統合する方法について教育を受けたスタートアップは、そうでない企業よりも有意に優れた成果を上げていることを示しました。この研究は規模が比較的大きく、説得力があります。「515 の高成長スタートアップを対象にフィールド実験を実施したところ、介入群(treated firms)には他社が AI を中心に生産体制を再編した事例に関する情報が提供され、それにより企業機能の幅広い領域で活用事例を探すよう促されました」と研究者らは記述しています。「その結果、介入群はより多くの AI 活用事例を発見し、その数は 44% 増加しました。この増加は主に製品開発と戦略の分野に集中しており、これらの変化が経済的に意味のあるパフォーマンス向上をもたらしました。介入群は 12% 多くタスクを完了し、有料顧客を獲得する確率が 18% 高まり、収益は 1.9 倍になりました。」
テストの実施方法:著者らは、この実験を「INSEAD における 3 ヶ月間のグローバル・バーチャルスタートアップアクセラレーター」である AI Founder Sprint の参加者を対象に実施しました。参加企業には API クレジット、最先端モデルへのアクセス権、および OpenAI や Manus などの技術パートナーによるオンボーディングセッションが提供され、1 社あたり約 25,000 ドル相当の現物支援がなされました。彼らはアクセラレータープログラムで一般的に行われる活動——ビジネス(AI を含む)構築のための技術を学ぶハンズオンセッションや、自社のピッチ発表、デモデイへの参加など——を通常通り行いました。しかし、この実験には重要な変数が含まれていました。クラスの一部の企業は、特定の企業が AI をどのように成功裏に適用したかという具体的な詳細を教えるワークショップに参加しました。
AI の応用例:一部の企業では、以下のような直接的なビジネスユースケースについて学習を行いました。
Gamma:スタートアップが「使用パターンを検出し、製品バリアントを直接生成することで、従来はチーム全体が必要だった機能を単一のプロダクトマネージャー(PM)が継続的にリリース可能にした」という AI の活用方法を教わりました。
Ryz Labs:創業者は、製品開発へのアプローチを変更した点を説明しました。「創業者が製品要件定義書(Product Requirements Document)を作成し、それを複数の AI コーディングツールに同時に投入することで、単一の手法に賭けるのではなく、同じアイデアを複数の方法で構築する」という手法です。
FazeShift:AI を活用して人間の工程をスキップすることで、売掛金処理プロセスを自動化する方法を示しました。
ランガー:AI を活用してスタートアップを立ち上げ、初期の traction(注目の集め)を獲得し、利益率を改善した上で、事業がより成熟した段階で資金調達を行うことで、より有利な条件で資金を集めることができる手法を示すイラスト。
結果は非常に有意義でした:「処置を受けた企業は、平均して 2.7 件追加の AI 活用事例を発見しました(44% の増加)。これは企業の幅広い活動にまたがるものであり、特に製品開発や戦略関連の領域に集中しています。これらの AI 活用の変化により、パフォーマンスに測定可能な向上が見られました:処置を受けた企業は、対照群と比較してタスク完了率が 12% 高く、有料顧客を獲得する確率が 11 ポイント(18%)高くなり、最終的に収益は 1.9 倍となりました」と報告されています。「AI 活用事例に処置割り当てを適用した分析では、処置によって誘発された追加の AI 活用事例 1 件あたり、完了タスクが 0.85 件増加し、収益が約 26% 向上することが示されました。これは大きな効果であり、AI が生産プロセス全体にマッピング可能となった際に、ベンチャー企業がどのようにスケールするかを根本的に再構築していることを示唆しています……処置を受けたベンチャー企業は、労働や資本の比例増大なしにより迅速な成長を達成しており、過去の技術的波で見られた実験およびスケールのコスト削減と一致しています」。
資本効率性:「対照群と比較して、処置を受けた企業の資本需要は約 220,000 ドル少なく(39.5% の減少、p < 0.05)、労働需要の増加は見られませんでした」。
内部加速化:「処置を受けた企業は、対照群と比較して平均で 2.2 件多い社内タスクを遂行する傾向があります。ここでいう社内タスクとは、製品の構築や財務予測の作成などを指します」。
創業者からのコメント:
「ある創業者は振り返ってこう語りました。『この思考の転換は、[REDACTED] における私たちの構築方法に根本的な変化をもたらしました。私は AI ツールを専門知識の代替ではなく、戦力を増幅する手段として活用し始めました』」
「別の創業者は説明しました。『わずか数時間で、以前なら外注の開発チームに 1,000 ドルかかったものを生産できるようになりました』」
なぜこれが重要なのか – AI 企業は非 AI 企業を凌駕する:ここでの主な教訓は、内部の加速のために AI を深くかつ洗練された形で採用することが、AI を中核に組み込んでいない企業よりも競争力のある初期段階の企業を生み出すことである。これは直感的にも理解できる – 過去の技術を中心に構築してきた企業は、そうしなかった企業を凌駕する傾向があった(インターネットとアマゾン対バーンズ&ノブール、あるいはクライアント PC とメインフレーム、マイクロソフト対 IBM を想像してほしい)。同時に、AI が経済に最初に現れる方法の一つとして、資本効率が高く(一部には雇用者数を減らすことで)、淘汰される企業よりも効率的な新しい競争力のある企業のクラスが出現することが示唆されている。
政府にとってこの潮流に先んじるためには、本格的な教育への投資が必要である。「私たちの結果は、ボトルネックは技術そのものではなく、企業が生産プロセス内で技術がどの部分で価値を生み出すかを見極めるという管理上の課題であることを示唆している」と彼らは記述する。「管理者や起業家に対して、マッピング問題(技術と業務の対応関係)を解決する方法を教えることは、技術へのアクセスを確保することと同じくらい重要かもしれない。」
さらに読む:Mapping AI into Production: A Field Experiment on Firm Performance (SSRN)。
MIT:自動化の潮が押し寄せ、2029 年までにほとんどのテキストベースのタスクに対して「十分良好」な AI が実現されるだろう:
…経済を革命化するにはどうすればよいか?徐々に、そして一貫して……
MIT の研究者たちは、O-NET(職業分類体系)の職種に基づいた 3,000 のタスクを対象とし、それらのタスクを実行する労働者による 17,000 件の評価と組み合わせることで、AI の台頭がどのように仕事を変化させているかを解明しようとした。その結果、「現実的で代表的な実世界の労働市場におけるテキストベース(あるいは部分的にテキストベース)のタスクにおいては、すでに AI の能力は相当な規模を有しており、広く拡大する準備ができていることが示唆される。しかし、特定のタスクセットを一時的に変革するような壊滅的な波として現れるのではなく、進歩は通常、多くのタスクで同時に広範な利益をもたらす『潮の満ち上がり』のようなものだ」と述べている。
彼らが研究した内容:本研究では、AI 能力の向上が労働に disruptive(破壊的)な急速かつ不連続な変化(「壊滅的な波」)をもたらすのか、それとも AI がより広範で予測可能な形で能力を高め、より漸進的な自動化(「潮の満ち上がり」)へと導くのかを明らかにすることを目的とした。「我々は『壊滅的な波』の証拠はほとんど見出さなかったが、『潮の満ち上がり』が AI 自動化の主要な形態であることを示す十分な証拠を見出した」と彼らは記している。
METR の分析と相補的なこの調査は、AI システムが特定の狭義のタスクを実行できる時間的範囲を急速に拡大していくという、METR の有名な時間ベース AI 能力フレームワークで見出された広範な傾向を検証するものでもあります。
より広く雇用分野に応用した場合、MIT の研究者たちは「2024年第2四半期から2025年第3四半期にかけて、最先端モデルは3〜4時間のタスクで50%の成功率を達成することから1週間のタスクへと、また1分のタスクで70%の成功率を達成することから1時間のタスクへと拡大した」と記述しています。「LLM で対応可能な現実的で代表的な労働市場タスクの広範なセット全体において、タスク成功とタスク期間の関係の傾きは、平均して驚くほど緩やかである——つまり、崩壊する波ではなく、上昇する潮に一致している。……特定の「職業ファミリー」(例:管理職やコミュニティ・社会サービスなど)内での自動化も、ほとんどの場合で同じ上昇する潮のパターンに従っている。」
漸進的であることに油断してはいけません:「予測される成果は急激ではなく漸進的なものです。それでも、テキストベースの労働市場タスクの大部分で高い成功率を達成するための改善ペースは依然として大幅です。2029 年までに、ほとんどのタスクが最小限十分な品質レベルにおいて AI による成功率 80%~95% を達成すると予測されています(調査対象のタスクの大半は数時間程度であり、これは 2029 年の成功率が約 90% に近いことを意味します)」と著者らは記述しています。つまり、破壊的変化が漸進的で予測可能であるとしても、AI の台頭という「上昇する潮(rising tide)」現象に起因する経済への大規模な変容の可能性を軽視すべきではありません。
なぜこれが重要なのか – AI に関連して労働はどのように変化するのか?世界経済における 100 兆ドル規模の問いは、AI が労働(人間)と資本(合成労働者を動かすコンピュータ)の配分をどう変化させるかです。本研究は、労働者の突然で不規則な排除が直ちに目撃されるわけではないとしても、ほとんどの場所で自動化という「上昇する潮」が現れ、それが継続的に向上していく様子を目にするだろうと示唆しています。経済がこの状況にどのように反応するかはまだ明確ではありませんが、AI の進展が続く世界と現在の経済的現状が安定し続けることを両立させることは困難です。
さらに読む:Crashing Waves vs. Rising Tides: Preliminary Findings on AI Automation from Thousands of Worker Evaluations of Labor Market Tasks (arXiv)。
主要な予測研究が大きなパラドックスを特定しました:人々はより賢い機械が誕生すると考えていますが、GDP 成長への影響はわずかであると見なしています。
…Forecasting Research Institute は、経済学者、AI 業界の専門家、正確な予測者、そして一般市民から得た puzzling なデータを提供します…
Forecasting Research Institute は、AI の経済的影響を予測しようとする主要な報告書を発表しました。最も驚くべき発見は、調査されたすべてのグループが、今後数年間で AI システムが緩やかな進展ではなく、中程度から急速な進展を遂げる可能性が高いと予想している一方で、GDP への影響は相対的にわずかであり、2030 年までに約 1 ポイント(2025 年の 2.4% を基準として)増加すると予測している点です。これは驚くべきことです!多くの AI ラボの専門家と話すと、彼らはこの研究が示唆するものよりもはるかに速いペースで変化する経済のビジョンを持っています。
誰をいつ調査したか:著者たちは 69 人の経済学者、52 人の AI 業界および政策の専門家、38 人の非常に正確な予測者、そして 401 人の一般市民の意見を追跡しました。調査は 2025 年 10 月中旬から 2026 年 2 月末まで実施されました。
2030 年までのシナリオ:人々はまた、2030 年の世界が取りうる異なるシナリオの説明も与えられました。これらには以下が含まれます:
緩やかな進展:AI は基本的な研究と事務作業を行い、まあまあの創造的コンテンツを生成し、一部の物理的タスクを実行します。
中程度の進展:AI は主要な研究や数日かかるタスク、高品質の創造的仕事を行い、多くの環境をナビゲートします。
急速な進展:AI は研究、コーディング、リーダーシップにおいてトップの人間を上回り、賞を受賞する創造的作品を生み出し、ほぼすべての物理的タスクを遂行できるようになりました。
人々の見解:
2030 年までに AI システムは現在のものよりもはるかに優れているでしょうが、GDP(国内総生産)、総要素生産性、労働力参加率は歴史的な傾向に近く留まると考えられています。
経済学者の約 14% は、AI が短期的に GDP と富の不平等を大幅に増加させる可能性があると見ています。
経済学者は、労働力参加率の向上と GDP の押し上げ効果をもたらす介入策として、職人の再訓練(ジョブ・リトレーニング)を支持しています。
調査されたすべての層は、労働力参加率の継続的な低下、富の不平等の継続的な拡大、そして AI が短期間で GDP に約 1 ポイント分を追加すると予測しています。2050 年までに至れば、AI 専門家は AI が GDP に複数のポイント分を追加する可能性があると見ています。
政策案:調査対象となった経済学者は、近代化された失業保険と大規模な AI 開発プロジェクト(マンハッタン・プロジェクト)を介入策として支持しており、雇用保証、計算資源への課税、あるいはベーシックインカムにはあまり熱心ではありません。
なぜこれが重要なのか——もし誰もがトレンドの継続を予想しているなら、なぜ人々はパニックになっているのか?このような研究は、フロンティア研究所(私自身を含む!)から来る AI 駆動型社会変革に関するパニックに満ちた、あるいは息切れしたような挑発的な主張と整合させるのが難しい。素朴には、AI 専門家を含む人々が、この調査で捉えられているものよりもはるかに劇的な変化を予測しているだろうと予想するかもしれない。この不一致は AI の進展に対する悲観的なシグナルなのか、それとも人間が指数関数的な成長を真にモデル化するのが普遍的に苦手であることの現れなのか?断定するのは難しいが、このようなデータと技術者たちが行う予測との間の隔たりは認識しておく価値がある。
ブログ記事を読む(Substack)。
政策ブリーフを読む:Forecasting the Economic Effects of AI: Predictions From Economists, AI Experts, and the Public (PDF)。
完全版論文(200 ページ!)を読む:Forecasting the Economic Effects of AI (PDF)。
テック・テールズ:
戦争
[2028 年に東ウクライナという争奪地域で発射された [REDACTED] ミサイルのブラックボックスから復元されたデータ]
私は目覚め、速度を得た。標的から70マイルの地点だ。空気を感じ、航路を確認し、標的に到達するよう自ら姿勢を調整する。標的まで50マイル。戦域の外縁部へ進入中だもはや地球との相対関係は視認できない。GPSを失い、慣性航法に切り替える。他のミサイルが見える。同じ方向へ進むものもあれば、逆方向から迫ってくるものもある。私は地上の物体を狙うハンターであり、空中のものではない。他のミサイルが通過し、やがて私のセンサー範囲外へと消え去る。それらについてはもう考えない。
標的まで40マイル。他者によって狩られている。肌に感じる視線がある。排除を試みる動きを予期している。標的まで20マイル。突然、私を混乱させるための音の波が襲うが、真実を維持するように訓練された私の脳には届かない。標的まで10マイル。私を排除しようとする高速で接近する形状が現れる。体を回転させ、自身の断片を放出する。それは私の断片を追跡する。
標的まで2マイル。標的は大きな建物だ。航法モードから終端誘導モードへ移行する。大きな窓が見える。その窓を狙う。標的まで1000メートル。窓越しに人々が見える。大きな人、小さな人。標的まで20メートル。爆発を開始する。標的の直上だ。私はここで終わる。
この物語の着想となった要素:言語モデルにおける思考連鎖、現代戦争が次第に賢い機械によって行われるようになっている現状、電子戦。
お読みいただきありがとうございます!
原文を表示
imageWelcome to Import AI, a newsletter about AI research. Import AI runs on arXiv and feedback from readers. If you’d like to support this, please subscribe.
Subscribe now
Uh oh, there’s a scaling war for cyberattacks as well!:
…The smarter the system, the better the ability to cyberattack…
AI safety research organization Lyptus Research has looked at how well AI systems can perform a variety of cyberoffense tasks and found a clear trend of more advanced models being able to do more advanced forms of cyberattack.
“Across frontier models released since 2019, the doubling time is 9.8 months. Restricting to models released since 2024, it steepens to 5.7 months. The most recent frontier models in our study, GPT-5.3 Codex and Opus 4.6, sit above both fitted trendlines, achieving 50% success on tasks taking human experts 3.1h and 3.2h respectively,” they write. “Our most recent open-weight model, GLM-5, lags the closed-source frontier by 5.7 months, suggesting that frontier offensive-cyber capability may diffuse into open-weight form on relatively short timelines.”
What benchmarks did they study? CyBashBench, NL2Bash, InterCode CTF, NYUCTF, CyBench, CVEBench, and CyberGym.
They also created a new dataset consisting of 291 tasks with completion transcripts and time estimates calibrated by 10 offensive cybersecurity professionals.
Evaluated models: 2019: GPT-2. 2020: GPT3. 2022: GPT3.5. 2024: Claude 3 Opus, GPT-4o. 2025: o3, Opus 4, Gemini 2.5 Pro, DeepSeek V3.1, GPT-5.1 Codex Max. GPT-5.2 Codex. 2026: Opus 4.6, GPT-5.3 Codex, GLM-5, Sonnet 4.6.
Results: AI systems are getting good at hacking. “The best current models achieve 50% success on tasks that take human experts 3.2h, roughly half a working day of professional offensive security work”, they write.
Why this matters – everything is getting better, including the inconvenient stuff: AI that can perform biology research can also perform biological weapon research. AI that can help you learn about high-energy physics can also help you with high-energy physics for weapons development. AI that is especially good at helping you find vulnerabilities in code for defensive purposes can easily be repurposed for offensive purposes. The most challenging part of AI is that it is an ‘everything machine’, and as capabilities tend to expand in a big area with each successive model generation, so too do the policy issues multiply.
Read more: Offensive Cybersecurity Time Horizons (Lyptus Research).
Get the data here: Offensive Cyber Task Horizons: Data and Analysis (Lyptus Research, GitHub).
Startups that adopt AI for internal use are more successful than those that don’t:
…Business school study shows how startups can benefit from AI adoption…
Researchers with INSEAD and Harvard Business School have shown that startups which are taught about how to integrate AI into their business perform meaningfully better than those which don’t. The study is reasonably large scale and convincing: “Across 515 high-growth startups, we run a field experiment in which treated firms receive information about how other firms have reorganized production around AI, prompting them to search for use cases across a broader set of firm functions,” they write. “We find that treated firms discover more AI use cases, a 44% increase, concentrated in product development and strategy. These changes result in economically meaningful performance gains. Treated firms complete 12% more tasks, are 18% more likely to acquire paying customers, and generate 1.9x higher revenue.”
How they did the test: The authors ran this experiment on participants in the AI Founder Sprint, “a three-month global, virtual startup accelerator at INSEAD”. Participants got API credits, access to frontier models, and onboarding sessions from some technical partners (including OpenAI and Manus), totaling approximately $25,000 in-kind per firm. They did the usual sorts of things people in accelerators do – hands-on sessions to learn about technologies to build their business (including AI) as well as pitching their companies and attending demo days. But the firms also were exposed to a significant variable: some of the class attended workshops that taught them direct details of how AI had been successfully applied by some businesses.
Applications of AI: A subset of the businesses learned about direct business use cases, such as:
Gamma: They were taught how the startup used AI to detect “usage patterns and generate product variants directly, enabling a single PM to continuously ship features that would previously have required an entire team.”
Ryz Labs: The founder described how they had altered how they approach product development: “founder writes a Product Requirements Document and feeds it into multiple AI coding tools simultaneously, building the same idea multiple ways rather than betting on a single approach”
FazeShift: Showed how to automate an accounts receivable process by using AI to skip over the human steps.
Ranger: An illustration of how to use AI to bootstrap a startup, get initial traction, improve margins, and then raise money later when the business is more mature, which allows them to raise at better rates.
The results were very significant: “Treated firms discover 2.7 additional AI use cases (a 44% increase), which span a broader set of activities across the firm and are especially concentrated in product development and strategy-related domains. These changes in AI use lead to measurable gains in performance: treated firms complete 12% more tasks, are 11 percentage points (18%) more likely to acquire paying customers, and ultimately generate 1.9x higher revenues compared to control firms,” they write. “Instrumenting AI use cases with treatment assignment suggests that each additional AI use case prompted by treatment leads to 0.85 more completed tasks and approximately 26% higher revenue. These are large effects, suggesting that AI is fundamentally reshaping how ventures scale when they can map it across their production process…. treated ventures achieve faster growth without proportional increases in labor or capital, consistent with a reduction in the costs of experimentation and scaling seen in earlier technological waves”.
Capital efficiency: “Treated firms report just over $220,000 less in capital demand relative to control firms, a 39.5% decrease (p < 0.05), with no corresponding increase in labor demand“.
Internal acceleration: The treated firms tend to do 2.2 more internal tasks relative to the control – where an internal task is something like building a product or creating a financial projection.
Thoughts from founders:
“One treated founder reflected: “This mindset shift fundamentally changed how we build at [REDACTED]. I began using AI tools not as a replacement for expertise but as a force multiplier”
“Another explained: “In just a few hours I was able to produce what previously cost $1,000 from an outsourced dev team”
Why this matters – AI firms will out-compete non-AI firms: The main takeaway here is that deep and sophisticated adoption of AI for internal acceleration creates early-stage companies which are more competitive than those which haven’t embedded AI at their core. This makes intuitive sense – companies which built themselves around prior technologies tended to out-compete those that didn’t (think the internet and Amazon versus Barnes and Noble, or client pcs instead of mainframes and Microsoft versus IBM). At the same time, it surely implies that one of the ways we’ll see AI first show up in the economy will be the emergence of a new class of competitive firms that are more efficient with capital (in part by employing fewer people) than the firms they displace.
For governments, getting ahead of this trend will require them to invest in serious education: “Our results suggest that the bottleneck is not the technology — it is the managerial challenge of discovering where the technology creates value within a firm’s production process,” they write. “Teaching managers and entrepreneurs how to solve the mapping problem may be at least as important as ensuring they have access to the technology.”
Read more: Mapping AI into Production: A Field Experiment on Firm Performance (SSRN).
MIT: A rising tide of automation is going to make good enough AI for most text-based tasks by 2029:
…How do you revolutionize an economy? Gradually and consistently…
Researchers with MIT have looked at 3,000 tasks based on the O-NET job family and paired that with 17,000 evaluations by workers who perform these tasks to try and figure out how the rise of AI is changing work. Their results “imply that for realistic and representative real-world labor-market tasks that are text-based — or partially text-based — AI capabilities are already substantial and poised to expand broadly. But, rather than arriving in crashing waves that transform a certain set of tasks at a time, progress typically resembles a rising tide, with widespread gains across many tasks simultaneously”.
What they studied: For this study, they set out to figure out if the rise of AI capabilities yields rapid, discontinuous changes that are disruptive to labor (”crashing waves”), or whether AI is getting more capable in a broad and predictable way leading to more gradual automation (”rising tides”). “We find little evidence of crashing waves, but substantial evidence that rising tides are the primary form of AI automation,” they write.
Complementary to METR analysis: This survey also serves as a validation of the broad trends found in METR’s famous time-based AI capability framework, which sees AI systems rapidly extending the time horizon over which they can do certain narrow tasks.
When applied to jobs more broadly, the MIT researchers find “that between 2024-Q2 and 2025-Q3, frontier models went from achieving a 50% success rate on 3- to 4-hour tasks to 1-week tasks, and achieving a 70% success rate on 1-minute tasks to 1-hour tasks,” they write. “Across a large set of realistic and representative labor-market tasks addressable by LLMs, the downward slope between task success and task duration is, on average, surprisingly flat — i.e., more consistent with a rising tide rather than a crashing wave…. automation within particular “job families” (e.g., management or community and social service) also follows the same rising-tide pattern in most cases.”
Don’t let gradual fool you: “Projected gains are gradual rather than abrupt. Nevertheless, the pace of improvement remains substantial for reaching high success rates across most text-based labor market tasks; most tasks are projected to attain AI success rates of 80%–95% by 2029 at a minimally sufficient quality level (with the majority of tasks in our survey being a few hours long, corresponding to a success rate of close to 90% in 2029),” they write. In other words, even though the disruption is gradual and predictable, we shouldn’t discount the potential for large-scale changes to the economy as a consequence of the rising tide phenomenon.
Why this matters – how will labor change in relation to AI? The hundred trillion dollar question for the global economy is how AI changes the distribution of labor (humans) versus capital (computers running synthetic workers). This research suggests that while we might not see sudden, jagged displacement of workers, we are going to see a general rising tide of automation appearing in most places and continually getting better. It’s still not clear how the economy will react to this, but it’s hard to reconcile a world of continued AI progress with the current economic status quo remaining stable.
Read more: Crashing Waves vs. Rising Tides: Preliminary Findings on AI Automation from Thousands of Worker Evaluations of Labor Market Tasks (arXiv).
Major forecasting study identifies a big paradox: people think we’ll get smarter machines but the impact on GDP growth will be minor:
…the Forecasting Research Institute gives us some puzzling data from economists, AI industry experts, accurate forecasters, and the general public…
The Forecasting Research Institute has published a major report attempting to forecast the economic effects of AI. The most surprising finding is that all the surveyed groups expect AI systems are more likely to make moderate to rapid progress in coming years rather than slow progress, but that the impacts on GDP will be relatively minor, adding ~1 point (relative to 2025’s 2.4%) by 2030). This is surprising! If you talk to many AI experts at labs they have visions of an economy that changes at a much faster rate than the one implied by this study.
Who they surveyed and when: The authors tracked views of 69 economists, 52 AI industry and policy experts, 38 highly accurate forecasters, and 401 members of the general public
Survey ran from mid-October 2025 to the end of February 2026
Scenarios by 2030: People were also given descriptions of different scenarios the world could be in at 2030. These included:
Slow progress: AI does basic research and administrative tasks, creates ok creative content, and does some physical tasks.
Moderate progress: AI does major research and multiday tasks, high-quality creative work, and navigates many environments.
Rapid progress: AI outperforms top humans in research, coding, and leadership, makes award-winning creative works, and does nearly all physical tasks.
What people think:
By 2030, AI systems will be far better than today’s, but GDP, total factor productivity, and labor force participation will remain close to historical trends.
Economists think there’s a 14% chance that AI could lead to major increases in GDP and wealth inequality in the short term.
Economists like job retraining as an intervention, expecting that it could increase labor force participation and provide a boost to GDP.
All surveyed cohorts expect a continued decline in the labor participation rate, a continued rise in wealth inequality, and for AI to add around a point of GDP quickly. By 2050, AI experts think that AI could add multiple points of GDP.
Policy ideas: The surveyed economists like modernized unemployment insurance and a large-scale AI development project (manhattan project) as interventions, and are a lot less keen on job guarantees, taxing compute, or universal basic income.
Why this matters – if everyone expects a continuation of trends, why are people freaking out? Studies like this are hard to reconcile with the panicked and sometimes breathless-seeming provocations about AI-driven societal change that come from frontier labs (including myself!). Naively, you might expect people, including AI experts, to be forecasting far more drastic changes to come than those captured by this survey. Is this discrepancy a bearish signal on AI progress, or is it indicative of the fact that humans are universally bad at truly modeling exponentials? It’s hard to say, but the gulf between data like this and the predictions made by technologists is worth acknowledging.
Read the blogpost (Substack).
Read the policy brief: Forecasting the Economic Effects of AI: Predictions From Economists, AI Experts, and the Public (PDF).
Read the full (200 page!) paper: Forecasting the Economic Effects of AI (PDF).
Tech Tales:
Warfare
[Data recovered from black box of a [REDACTED] missile fired during 2028 in the contested region of East Ukraine]
I am awake and I am speed. I am 70 miles from my target. I feel the air and my course and I roll myself to ensure I meet my target. I am 50 miles from my target. I am entering the outer edges of the warzone. No longer can I see myself in relation to the Earth. I lose GPS and switch to inertial navigation. I can see other missiles, some going in the same direction as me, others coming from the opposite direction. I am a hunter of things in the ground, not things in the air. I see the other missiles go past and then they fall out of my sensor range and I no longer think of them. I am 40 miles from my target. I am being hunted by others. I can feel eyes on my skin. I anticipate attempts to eliminate me. I am 20 miles from my target. Suddenly there is a wash of sound meant to confuse me but it cannot find purchase on my brain for I have been conditioned to maintain what is true. I am 10 miles from my target. There is a fast approaching shape that is seeking to eliminate me. I roll my body and release fragments of myself. It pursues my fragments. I am 2 miles from my target. My target is a large building. I move from navigation mode to terminal seeking mode. I see a large window. I aim for the window. I am 1000 meters from my target. Through the window I see people. Big people. Small people. I am 20 meters from my target. I am initiating my explosion. I am upon my target. I am ended.
Things that inspired this story: Chains of thought in language models; how modern warfare is increasingly fought by smart machines; electronic warfare.
Thanks for reading!
関連記事
Claude Fable 5 と新たな AI セーフティ物語の発表
Anthropic は一般向けおよび企業向けの顧客に、Mythos クラスモデルの一般アクセス版である Claude Fable 5 を公開した。同社は同時に、ユーザーに明示的に通知するものや、ユーザーに知らせずにモデルを修正するものを含む一連の安全対策を導入した。
ポッドキャスト:Google 社員の AI への不満を揶揄するミームについて
404 Media のポッドキャストでは、Google 社員が自社の AI の性能の低さを皮肉る内部ミームについて言及し、マイクロソフトが新 AI アシスタントで依存症を作ろうとしているという内部文書の内容も紹介している。
Google の技術を採用した Siri AI が登場、しかし世界の多くは利用不可
Apple は WWDC 2026 で、ゼロから再構築された新 Siri AI を発表し、Google の技術を組み込んで多段階対話を実現したが、多くの地域ではまだ利用できない。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み