ものの形

2023 年 10 月、私は「物の影の形」について書き、今後 AI がどのような存在へと変貌していくかについて推測しました。しかし今、私たちはその「物」をより明確に見ることができ、それに伴ういくつかの結果も理解できるようになっています。最近の投稿で議論してきた通り、私たちは AI の新たなフェーズに入りました。ChatGPT が登場した直後、人間と AI の協働は私が「共知性」と呼んだ形を取りました。これは、人間が AI に指示を出し合いながらタスクの支援を受けるという形態です。しかし 2025 年後半から、Claude Code や OpenAI の Codex、OpenClaw といった AI エージェント（AI agents）のおかげで、私たちは新たな時代へと突入しました。これらは、数時間にわたる人間の作業を任せるだけで、数分以内に合理的で有用な結果をもたらす AI システムです。これは AI と共に働く時代ではなく、AI を管理する時代なのです。 この新しい AI へのアプローチは、AI の能力における急速な指数関数的改善の結果です。つまり、AI の能力がどのように増大しているかを理解しなければ、現在がどこにあり、今後どこへ向かうのかを理解することはできません。 指数関数の波に乗って 指数関数的な改善を視覚化するのは難しいため、チャートやグラフではなく、カワウソから始めたいと思います。私の AI に関する執筆を追いかけていただいている方なら、私の「カワウソ・テスト」をご存知でしょう。これは、さまざまな AI 画像モデルに「Wi-Fi を使いながら飛行機に乗っているカワウソ」の画像を描かせるという挑戦です。以下にご覧いただける通り、2022 年（ChatGPT が登場した年）から 2025 年にかけての進歩は急速かつ驚異的なものでした。 ![image](https://substackcdn.com/image/fetch/$s_!3jtO!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3ac29474-e923-41ab-861a-0b1b5323d810_3146x2080.png) では、2025 年 4 月のあの画像以降、何が起こったのでしょうか。ほぼ完璧な画像生成が可能になったことで、動画が新たなフロンティアとなり、ここでも指数関数的な進歩が見られています。その実例として、TikTok の親会社である字节跳动（Bytedance）が開発した、米国ではまだ未発売の最も先進的な AI 動画モデルに、「エタン・モリック氏の『カワウソテスト』についてのカドワシドキュメンタリー」というプロンプトを与えました。このテストは、飛行機に乗ったカワウソの画像を生成できる能力によって AI を評価するものです。これが最初の結果です——ぜひ音声もオンにしてください。 発音ミスが 1 箇所あるものの、これは非常に完璧な出来栄えで、カワウソが人間のような表情を持つようにアニメーション化されている点に至るまで正確です。もちろん、動画モデルは素晴らしいものですが、それが有用な自律型 AI（Agentic AI）が何ができるのかを示す指標になるとは限りません。では、AI の能力に関するベンチマークを見てみると、同じような指数曲線が見られるのでしょうか？ 確かに、現在の AI 界で最も有名な評価基準である METR Long Tasks グラフにおいて、その傾向は明確に確認できます。このグラフは、ある程度の信頼性を持って AI がどの程度人間の作業を自律的に完了できるかを測定することで、AI の進歩を計ろうとするものです。批判も一定数寄せられており、METR 自身も潜在的な問題点を指摘しています。しかし、もし METR グラフが気に入らないとしても、AI の能力に関する他のグラフのほとんどが同じような曲線を描いていることに気づくでしょう。 例として、私は4 つの難易度が高く多様な AI テストを選び、下の画像に時間経過に伴う進歩をグラフ化しました。左上には Google-Proof Q&A ベンチマークでのスコアが表示されており、これは知識を試すテストです。このテストでは、Google を使用しながら専門分野外で graduate students が得るスコアは 34% に過ぎず、専門分野内でも約 70% ですが、現在の最良の AI は 94% のスコアを達成しています。あるいは GDPval もご覧ください。ここでは業界の専門家によって、複雑なタスクにおける AI と経験豊富な人間の性能が比較評価され、最新の AI はトップパフォーマンスを示す人間と同等かそれ以上の水準に達する頻度が 82% に達しています。同様のパターンは、大学教授らが作成した非常に難易度の高い問題群である「Humanity's Last Exam」でも見られます。これらを解答するには相当な専門知識が必要です。あるいは、AI のパズル解決能力を利用することもできます（ここでパズルを試すことができますが、とても面白いです！）。それぞれが、テストで可能な最高スコアに達するまで、少なくともその時点では減速の兆候をほとんど示さずに、同様の急速な能力向上を示しています。 ![image](https://substackcdn.com/image/fetch/$s_!EAjZ!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F2c5094e7-9fd4-4f9e-aa35-122a767435f6_2367x1397.png) 指数関数的グラフはさておき、これらのテストにはそれぞれ独自の欠陥があり、AI は依然として凹凸があり、あるタスクについては高いレベルで処理できる一方で、他のタスクでは失敗することもあることを認識することが重要です。さらに、これらの驚異的な能力がテストで示されているにもかかわらず、企業はまだ AI の導入初期段階にあり、その結果、ほとんどの組織ではまだ劇的な変化は起きていません。ただし、「ほとんどの組織」にはすべての組織が含まれるわけではありません。すでに、AI エージェントの新しい能力を活用した組織運営の新たなアプローチの最初の兆候が見え始めています。 仕事への根本的な変化 数週間前、アクセス制御に焦点を当てたセキュリティソフトウェア企業である StrongDM の 3 人チームが、「Software Factory（ソフトウェア工場）」を構築したと発表しました。これは、AI エージェントと協働する新しい働き方で、生産用ソフトウェアの作成、テスト、リリースを人間が関与することなく完全に AI に任せるものです。このプロセスには 2 つの（非常に過激な）ルールが含まれていました。「コードは人間によって書かれてはならない」「コードは人間によってレビューされてはならない」です。この工場を稼働させるために、各エンジニアには自らの給与に相当する額の AI トークンを費やすことが求められ、少なくとも 1 日あたり 1,000 ドルが必要です。 ファクトリーの基本的な考え方は、人間が作成した将来の製品ロードマップを取得し、それを製品に変換することです。コーディングエージェントはこれらのロードマップを利用してソフトウェアを構築し、テストエージェントは必要に応じて構築するシミュレーションされた顧客環境でそのソフトウェアを試します。この一連のエージェントたちは互いにフィードバックを提供し合い、AI が結果に満足するまで往復ループを続けます。その後、人間が完成した製品を検証し、誰も下層のコードに触れたり見たりすることなく、結果は顧客へ出荷されます。 ![image](https://substackcdn.com/image/fetch/$s_!ZB3e!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F61add777-8827-4cc1-8172-c17d9d5538b4_1385x862.png) ソフトウェアファクトリーのテストエージェントによって構築された Slack のシミュレーション版で、多数の模擬顧客がコーディングエージェントによって作成されているツールをテストするためにリクエストを入力しています。 ここにはこのアプローチを機能させる多くの詳細があり、StrongDM チームはそれらの多くを公に共有しています。また、ファクトリーが稼働している様子を観察し、見たものについてコメントしてもらうために、いくつかの賢明な外部観察者を招き入れました。そのため、Simon Willison と Dan Shapiro の記述を読むことで、彼らのアプローチの強みと弱みをよりよく理解することができます。しかし、多くの点で、ソフトウェアファクトリーの具体的な詳細よりも重要なのは、どのように働くかという根本的な実験が今や可能であるだけでなく、おそらく必要となっているという事実です。AI は組織の運営方法を変えるのに十分であり、モデルが継続的に改善される中でも、この実験はまさに始まったばかりです。 ローリング・ディスラプション 実用的なエージェント、不規則な指数関数的な改善、そして仕事の性質を根本から実験する能力が組み合わさり、AI の進展に対する一種の連続的で予測不可能な環境を形成しています。AI の能力しきい値を超えると、人々の AI ができることへの見方を一夜にして変えるような、根本的に新しいユースケースが解放されます。同時に、AI を実験している組織は、それを自らのために機能させる方法を発見し、新たな戦略や企業が最も価値あると考える従業員の種類の突然の大規模な転換に関する発表が行われることになります。さらに、AI が継続して改善されるにつれて、より多くの政策立案者が AI ガバナンスに関心を持ち始め、AI 企業との対立が生じます。 これは単なる推測ではありません。私たちはこの一連の出来事をたった一週間で実際に目撃したのです。 2 月 22 日、あまり知られていない金融調査会社である Citrini Research が、AI の導入が 2028 年までに多くの確立されたビジネスを破壊する可能性についての架空のシナリオを発表しました。その記事には明らかにありえない要素も含まれていましたが、ウォール街に大きな衝撃を与え、株式市場で主要な価格変動を引き起こしました。 2 月 26 日、金融サービス企業の Block が 40% の人員削減を発表し、これが AI が原因であるかのような印象を与えました。実際には、AI の役割は大幅に誇張されており、大規模なリストラの口実に過ぎなかった可能性が高いです。 そしてその週の締めくくりとして、2 月 27 日、ペンタゴンと AI 企業 Anthropic の間で、政府が Claude をどのように使用するかに関するルールを誰が管理すべきかという公的な対立が発生しました。 多くの点において、これらの事例は当初見えたものとは実際には異なっていました。Citrini のレポートは架空のシナリオであり、Block 社のレイオフは AI が原因ではありませんでした。また、戦争における AI を巡る対立は、まだ完全に解明されていないいくつかの複雑な問題を中心に展開されていました。しかし、私はあの単なる一週間が、近い未来がどのような感覚を与えるかを示す良い例証だと考えています。AI の能力に関する突然の revelation（発見）による急速な市場反応。雇用に対する AI の影響がますます現実味を帯びてきていること（短期的にその影響が良いのか悪いのかについては多くの議論があるとしても）。そして、世界中で AI 企業と政策決定プロセスとの間の絡み合いが深まっていることです。リスクが高まるにつれ、状況はさらに不安定に感じられるようになるでしょう。 もちろん、事態が落ち着く可能性もあります。もしかすると AI の改善が行き詰まり、組織が変化を徐々に吸収し、人々が AI の能力と限界を理解するにつれて、連続的な混乱もより管理可能になるかもしれません。歴史には、一夜にしてすべてを変えるとされていた技術が、実際には経済を完全に再構築するのに数十年を要した例が数多くあります。 しかし、私はそれに賭けはしません。 一つの理由は、AI企業が非常に明確に次のステップを語っているからです。それは再帰的自己改善（recursive self-improvement）、あるいはRSIです。これは、AIシステムがより優れたAIシステムを構築するためにますます利用されるようになり、上記で示した曲線を加速させる可能性のあるフィードバックループを生み出すという考え方です。1月のダボス会議において、AnthropicのDario Amodeiは、コーディングやAI研究に優れたモデルを作成すれば、それらを用いて次世代のモデルを構築でき、そのループを加速させられると説明しました。彼はまた、Anthropic内のエンジニアたちはもはや自らコードを書くことがほとんどないと指摘しています。OpenAIが2月に最新のCodexモデルを発表した際、同社は「これは自己生成に決定的な役割を果たした最初のモデルである」と述べています。そしてGoogle DeepMindのDemis Hassabisは、同じダボスパネルで、自己改善ループを完成させることは主要な研究所すべてが現在積極的に取り組んでいる課題であると認めつつも、まだ欠けている機能や実際のリスクが残っているとも警告しました。 これがどこまで続くのか、私たちは知りません。RSI は数十年にわたり理論的な概念であり、ラボは計算能力、データ、あるいは AI 研究そのものの難しさにおいてボトルネックに直面する可能性があります。また、LLM ベースの AI が最終的にそれ以上改善できない天井に達するのか、あるいは荒々しいフロンティアが決して滑らかにならないままなのかについても、私たちは知りません。確実なことを何も知らないとは思いますが、再帰的自己改良がもはやSF小説の世界の話ではない段階をすでに超えているとも考えています。むしろ、それは主要な AI 企業のロードマップにおける明示的な項目となっています。もしこのループが完結すれば、これまで見てきた指数関数的曲線はより急峻になり、その終点は不確実なものとなるでしょう。 さて、現在の状況を整理しましょう。2 月のたった一週間の不安定さは、AI の能力が高まり続けることが市場・雇用・政府に同時に作用し始めたときにどのような感覚を伴うかを示す予行演習でした。この不確実性の感覚は、おそらくさらに広がっていくでしょう。しかし、不確実性は無力と同じではありません。技術がこれほど強力でありながら未だに不安定な状況にある今、個人や組織が下す選択の重要性はこれまで以上に高まっています。私たちは「そのもの（The Thing）」の姿を今まさに見ることができますが、それでもなお「そのもの」自体や、それが私たち全員にとって何を意味するかを影響下に置くことは可能です。職場・学校・政府における AI の利用方法について、明確なルールやロールモデルが存在しないのは事実です。これは問題ですが、同時に現在 AI をどのように活用すべきかを模索しているすべての組織が、他者に対する先例を築いていることを意味します。「そのもの」を形作るための窓は長くは開いていないかもしれませんが、今まさにそこにあります。 購読する 共有する ![image](https://substackcdn.com/image/fetch/$s_!Gh3-!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc14b8b32-b659-426f-9594-175d71f7350d_1456x816.png)

ものの形

背景や根拠まで確認しますか？

関連記事

背景や根拠まで確認しますか？

関連記事

ニュースの次に確認する