The Shape of AI: Jaggedness, Bottlenecks and Salients｜AIの形状：不規則性、ボトルネック、顕著な特徴 | AIニュース最前線

2023 年という古くからの AI の時代に戻りましょう。私と共著者たちは、AI がタスクの難易度に対する人間の直感とはあまり一致しない方法で、ある作業は驚くほどよくこなす一方で別の作業は驚くほど苦手とするという奇妙な能力を説明するために、ある用語を発明しました。私たちはこれを AI 能力の「ジャグド・フロンティア（Jagged Frontier）」と呼びましたが、これは依然として AI の主要な特徴であり、混乱の絶え間ない源泉となっています。なぜ AI は、高度な医療診断や非常に難しい数学（はい、最近までこのフロンティアの外にありましたが、今では数学が本当に得意です）においては人間を超えた能力を持ちながら、比較的単純な視覚パズルや自動販売機の運転においてはまだ苦手なのでしょうか？AI の正確な能力はしばしば謎のままであるため、AI が見た目よりも使いにくいのは当然のことなのです。 私は、ジャグドネス（不均衡さ）は今後も AI において大きな部分を占め続けると思いますが、それが何を意味するかについては確信が持てません。トマス・プエヨ（Tomas Pueyo）氏は X で彼のビジョンを概説したこの viral な画像を投稿しました。彼の見解では、拡大するフロンティアはジャグドネスを凌駕していくでしょう。確かに AI はある分野が苦手であり、改善が進んでも相対的に苦手なままとなるかもしれませんが、集約された人間の能力のフロンティアは主に固定されており、AI の能力は急速に成長しています。もし AI が自動販売機の運転において相対的に苦手であっても、それでも人間よりも優れた存在になるのであれば、それは問題なのでしょうか？ ![image](https://substackcdn.com/image/fetch/$s_!SY-V!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F92c4e814-870d-401b-80ac-3ebfa0cfc3af_3444x1924.jpeg) 未来は常に不確実ですが、この考え方には仕事と技術の性質に関するいくつかの重要な側面が欠けていると思います。第一に、フロンティア（最先端領域）は確かに非常にギザギザしており、そのギザギザさゆえに、人間のタスクと完全に重なり合わない超知能 AI が生まれる可能性があります。例えば、このギザギザさの主要な原因の一つは、大規模言語モデル（LLM: Large Language Models）が新しいタスクを記憶し、永続的にそこから学習できない点にあります。多くの AI 企業がこの問題に対する解決策を追求していますが、この問題は研究者たちが予想するよりも解決が難しい可能性があります。記憶機能がなければ、AI は他の分野では人間を超えた能力を持っていても、人間ができる多くのタスクを実行することに苦労することになります。コリン・フレイザーは、このような AI と人間の重なり合いがどのようなものになるかを示す 2 つの例を描きました。AI が一部の分野で確かに人間を超えている一方で、他の分野では人間レベルに遠く及ばないか、あるいは全く重ならない様子がわかります。これが真実であれば、AI は人間と補完し合って働く新たな機会を生み出すことになります。なぜなら、私たちそれぞれが異なる能力を備えているからです。 これらは概念的な図解ですが、科学者たちのグループが最近、AI の能力の形状をマッピングしようとし、それが不均一に成長していることを発見しました。これはまさに、不揃いな最前線が予測する通りです。読書、数学、一般知識、推論 — AI はこれらすべての分野で急速に改善しています。しかし、記憶については前述した通り、非常に改善の少ない弱点となっています。プロンプトの改善やより優れたモデル（GPT-5.2 は GPT-5 よりもはるかに優れています）によって最前線の形状が変わる可能性はありますが、「不揃いさ」そのものは残ります。 ボトルネック たとえわずかな不整（ジャグネス）であっても、超知能を持つ AI がタスクを自動化できなくなる問題を引き起こす可能性があります。システムの機能性は、その最悪のコンポーネントによって決定されます。私たちはこれらの問題をボトルネックと呼びます。いくつかのボトルネックは、AI が特定のタスクにおいて頑固に人間未満の能力しか持たないことに起因します。LLM（大規模言語モデル）を備えたビジョンシステムは医療画像の読影が十分ではないため、まだ医師を代替することはできません；LLM は押し返すべき場面で過度に親切すぎるため、まだセラピストを代替することはできません；ハルシネーション（幻覚）は頻度が減ったとしても依然として存在するため、100% の精度が求められるタスクにはまだ対応できません。そして他にも多くの例があります。フロンティア（最先端技術の領域）がさらに拡大すれば、これらの問題の一部は消滅するかもしれませんが、弱点こそがボトルネックの唯一の形態ではありません。 いくつかのボトルネックは、能力とは無関係のプロセスに起因します。たとえ AI が従来の方法よりも劇的に迅速に有望な薬剤候補を特定できるようになったとしても、臨床試験では依然として実際の患者が必要であり、彼らの募集、投与、モニタリングには実際の日数がかかります。FDA（米国食品医薬品局）もなお申請に対する人間の審査を要求しています。たとえ AI が優れた薬のアイデアの生成率を10倍以上に引き上げたとしても、制約となるのは発見の速度ではなく承認の速度です。ボトルネックは知能から制度へと移行し、制度は「制度特有の速度」でしか動きません。 Google の Nano Banana Pro から提供された画像。詳細は後ほど！ AI がほぼ完全に人間を超えている領域であっても、エッジケースには人間の介入が必要となる場合があります。例として、Cochrane レビュー（多くの医学研究を統合して特定のトピックに関する科学的合意を導き出す、著名で徹底的に調査されたメタ分析）を AI を用いて再現した研究があります。研究者チームは、適切にプロンプトを与えられサポートされた GPT-4.1 が「Cochrane レビューの 1 号分（n=12）全体を 2 日間で再現・更新し、これは従来の体系的レビュー作業で約 12 人年分に相当する」と報告しました。AI は 146,000 件以上の引用文献をスクリーニングし、論文全文を読み込み、データを抽出し、統計分析を実行しました。実際には、精度において人間の審査員を上回る結果を示しています。奇妙なことに、関連する研究の発見や適切な数値の抽出、結果の統合といった多くの知的に困難な作業は、すでに最先端技術の領域内に確立されています。しかし、AI は補足ファイルへのアクセスができず、未発表データの請求のために著者にメールを送ることもできません。これらは人間が日常的に行う業務です。これらの欠陥はレビュー全体の誤りの 1% 未満を占めますが、このわずかなエラーが存在する限り、プロセスの完全な自動化は不可能となります。12 人年分の作業が 2 日間に短縮されるのは、科学の実践方法に精通した人間がエッジケースに対応する場合に限られます。 これはパターンです：不整（ジャグネス）がボトルネックを生み、そのボトルネックとは、非常に賢い AI でさえも人間を容易に代替できないことを意味します。少なくとも今はまだそうです。これはある面では良いことかもしれません（急速な失業を防ぐため）、別の面では苛立たしいことです（科学的研究のスピードアップを私たちが望むほどには進められないため）。また、ボトルネックは、AI 企業の仕事を、AI を阻んでいる要因に対して AI の能力を高めることに集中させることになります。数学的能力が明白な障壁となった後に急速に向上したようにです。 歴史学者トーマス・ヒューズはこの現象に対する用語を持っていました。電気システムの発展を研究する中で、彼は進歩がしばしば単一の技術的または社会的問題で停滞することに気づきました。彼はこれを「逆突出部（リバース・サリエンツ）」と呼びました。これはシステムが飛躍的に前進することを阻む、唯一の技術的または社会的な問題です。 ![image](https://substackcdn.com/image/fetch/$s_!p2fo!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fecb3956b-57c1-4cf0-810e-dd60869aaa67_394x303.jpeg) 逆突出部（リバース・サリエンツ） ボトルネックは、AI が実際には決してあることができないかのような印象を与えることがあります。しかし現実には、進歩が単一の不整な弱点によって阻まれているのです。その弱点が「逆突出部」となり、AI 研究所が突如としてその問題を解決した瞬間、システム全体が一気に前進します。 先月におけるこの現象の最も強力な例は、Google の新しい画像生成 AI「Nano Banana Pro」です（はい、AI 企業はまだ名前を付けるのが下手なのです）。これは二つの進歩を組み合わせたものです：非常に優れた画像作成モデルと、そのモデルを指示するために活用できる非常に賢い AI です。必要に応じて情報を検索しながらモデルを導きます。例えば、私のおたくのテストにおける究極版として Nano Banana Pro にプロンプトを入力すると、「オッターである科学者たちがホワイトボードを使って、AI の WiFi テストにおけるイーサン・モリックのオッターが飛行機に乗っている様子について説明し、それが通過したことを証明している。壁一面にラップトップを使用する飛行機のオッターの写真が並んでいる」というものです。私はこれを得ます： ![image](https://substackcdn.com/image/fetch/$s_!iWXH!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fcdf5bf96-576c-4145-ad21-d9f9a3e9adb6_2048x1118.jpeg) 一貫性のある言葉、異なる角度、影、主要な誤字はありません。非常に素晴らしいものです。覚えておいてください、「WiFi を使用する飛行機に乗ったオッター」というプロンプトは、2021 年にこの画像を得ていました： ![image](https://substackcdn.com/image/fetch/$s_!6qPG!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6831ec30-258a-4357-92a0-a79dc6791fb3_400x400.jpeg) しかし、実は非常に優れた画像生成能力こそが、多くの新機能にとってボトルネックとなっていたのです。例えば PowerPoint のスライドデッキを作成するケースを考えてみましょう。主要な AI 企業は皆、自社の AI に PowerPoint を作成させることに注力してきました。その手段として、AI が得意とするコンピュータコードを記述させ、ゼロから PowerPoint を生成させています。これは困難なプロセスですが、Claude と ChatGPT の両方とも大幅に改善されており、スライドの内容がやや地味であるとしてもです。例えば、私の著書『Co-Intelligence』を Claude に読み込ませて、スライドデッキ要約を作成させました。モデルは非常に賢いのですが、その PowerPoint デッキはコードで記述しなければならないという制約によって限界があります。 ![image](https://substackcdn.com/image/fetch/$s_!GNbJ!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fa867d9cd-8283-4a3e-a0da-2c8c2ebba069_1345x752.png) 次に、Google の NotebookLM アプリケーションで同じことを試した例を示します。ここでは賢い Gemini AI モデルと Nano Banana Pro を組み合わせて使用しています。こちらはコードを使用せず、各スライドを単一の画像として生成しています。画像の品質が低かった時代にはこれは不可能でしたが、今は突然それが可能になりました。 ![image](https://substackcdn.com/image/fetch/$s_!zl1i!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe9d6157b-8558-4543-ad8b-d933f859a163_2203x1072.jpeg) 画像は非常に柔軟性があるため、スタイルやアプローチを自由に試すことができます。私は NotebookLM に学習の科学的根拠に基づく方法について深掘り調査レポートを作成させ、それをさまざまなスタイルで読みやすいように設計された密度の高いスライドデッキに変換してもらいました。一つは手書き風、もう一つは 1980 年代パンクにインスパイアされたもの、「非常にドラマチックでコントラストが強く、背景が鮮やかな黄色のスライド」というスタイルのもの、そしてもちろん、カワウソが飛行機に乗っているというテーマのスライドです。 ![image](https://substackcdn.com/image/fetch/$s_!9boi!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8bb4315d-6465-43e5-bd38-4dc70b7080e4_2752x1545.png) 多くの点で、Claude と Gemini の両方にとっての「難しい部分」はフロンティア（最先端領域）の中にあります。これらは単にソース資料、トピック、アイデアを受け取れば、それをスライド形式で要約することができます。ハルシネーション（幻覚・誤情報生成）は非常に稀であり、出典も正確です。カワウソの比喩を作成したり、パンク風の記述を考案したりすることも可能です。これは知的に要求される部分ですが、AI はすでに一年以上この能力を持っています。しかし、スライドやその他の視覚的プレゼンテーションを作成することは、テキストの壁を有用なものにするためのボトルネックでした。問題は完全に解決されたわけではありません：画像は完璧ではなく、編集もできません（ただし、これは間もなく修正されるとのことです）。それでも、これから何が起きるのかは見えてきます。 多くの転換点 たとえ AI が分析やパワーポイント作成において人間を超えた能力を獲得したとしても、それが必ずしもコンサルタントやデザイナーの仕事を AI に置き換えることを意味するとは考えません。これらの仕事には、AI が苦手とする一方で人間が卓越している「ジグザグな最前線」に沿った多様なタスクが含まれています。多くの関係者から情報を収集し合意形成を図れるか？人々が実際に必要としているものを決定づける暗黙のルールを理解できるか？AI の素材とは一線を画し、深い課題に独自に対応する何かを創出できるか？このジグザグな最前線には、人間の仕事にとって多くの機会が存在します。 しかし、逆突出（reverse salient）に焦点を当てることでボトルネックが突然解消され、飛躍的な前進が見られることも予想されます。かつては人間のみが行っていた業務の領域が、AI が実行可能なものへと変化していくのです。AI の行先を理解したいなら、ベンチマーク（評価指標）を見るのではなく、ボトルネックに注目すべきです。一つでも突破されれば、その背後にあったすべてのものが一斉に流れ込んでくるからです。画像生成はこれまでプレゼンテーションや文書作成、あらゆる種類の視覚コミュニケーションを阻害する要因となっていました。しかし今はもうそうではありません。次なるボトルネックは何でしょうか？記憶力？リアルタイム学習？物理世界での行動実行能力？ どこかの AI 研究所では、今まさにこれらのボトルネックを逆突出として扱っているはずです。突破される際に多くの警告があるとは考えられません。しかし、ジグザグな最前線は両刃の剣です。これまでに起こったすべての飛躍的前進が、人間が必要とされる新たなエッジ（境界）をさらに生み出してきました。今後にも多くの飛躍的前進が待っています。同時に、多くの機会も存在するでしょう。その両方に注意を向けるべきです。 購読する 共有する ![image](https://substackcdn.com/image/fetch/$s_!B1Pw!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F2279cb92-460a-4f73-8594-33fca151925c_2432x1728.jpeg) 私は Gemini 3 に、この投稿のための魅力的なタイトル画像を作成するよう依頼しました。これがその結果です。

AIの形状：不規則性、ボトルネック、顕著な特徴

背景や根拠まで確認しますか？

関連記事