AIの形状:不規則性、ボトルネック、顕著な特徴
本記事は、AI の能力が特定のタスクに偏る「不均衡なフロンティア(Jagged Frontier)」の概念を再考し、永続的な学習機能の欠如が人間との役割分担を生む可能性を示唆している。
キーポイント
AI の不均衡な能力特性の継続性
AI は特定の分野(数学や診断)で超人的な性能を発揮する一方、単純な視覚パズルや物理操作では依然として苦手とする「Jagged Frontier」は、将来も主要な特徴であり続ける。
人間能力フロンティアとの比較視点
Tomas Pueyo の提唱するように、AI が全体的に人間を超えれば不均衡さは問題にならないとする見方があるが、これは技術の本質的な課題を過小評価している。
永続的学習の欠如と役割分担
LLM が新しいタスクを恒久的に記憶・学習できないという根本的な不均衡さが解消されなければ、AI は人間が得意とする領域の一部で永远に劣位となり、補完関係が生まれる。
実証された不均一な成長
科学者による最近の研究では、AI の能力フロンティアは予測通り不均衡かつ不均一に拡大しており、特定の領域での限界が確認されている。
AI 能力の不均一な成長(Jaggedness)
AI は読解や推論などの特定の分野では急速に改善している一方、記憶など他の分野では依然として弱点が残っており、この「不揃いな」成長パターンはモデルの改良によっても根本的には解消されない。
ボトルネックによる自動化の限界
AI の能力が向上しても、医療画像診断や治療家の役割など特定のタスクでの精度不足やハルシネーションといった技術的弱点が、超知能な AI による完全な自動化を阻むボトルネックとなっている。
制度速度による制約の移行
AI の発見能力が劇的に向上しても、臨床試験や規制承認など人間の関与が必要なプロセスが存在するため、ボトルネックは知能から制度(インスティテューション)へと移り、全体のスピードは制度の速度に制限される。
影響分析・編集コメントを表示
影響分析
この分析は、AI の普及における過度な楽観論(AI が即座にすべての人間作業を代替する)に対する重要な警鐘となり、実務現場での AI 導入戦略を見直す契機となる。特に「永続的学習」の欠如という技術的制約が、将来的な人間の役割を再定義し、AI と人間の協働モデル(補完関係)を確立する上で決定的な要因であることを示唆している。
編集コメント
「AI は万能になる」という単純化されたナラティブに対し、技術的な限界(特に学習の永続性)に焦点を当てた冷静な視点を提供しており、戦略立案者にとって重要な示唆を含んでいます。
2023 年という古き AI の時代に戻りましょう。私と共著者たちは、AI がタスクの難易度に対する人間の直感とはあまり一致しない方法で、ある作業は驚くほどよくこなす一方で、別の作業は驚くほど苦手とするという奇妙な能力を記述するために、ある用語を発明しました。私たちはこれを AI 能力の「ジャグド・フロンティア(Jagged Frontier)」と呼びましたが、これは依然として AI の主要な特徴であり、絶え間ない混乱の原因となっています。なぜなら、AI は高度な医療診断や非常に難しい数学(はい、最近までこのフロンティアの外にありましたが、今では数学が本当に得意です)においては人間を超えた能力を示す一方で、比較的単純な視覚パズルや自動販売機の運転においては依然として苦手だからです。AI の正確な能力はしばしば謎めいたものであり、そのため AI が見た目よりも使いにくいのは当然のことと言えます。
私は、ジャグドネス(不規則性)は今後も AI において大きな部分を占め続けると思いますが、それが何を意味するかについては確信が持てません。トマス・プエヨ(Tomas Pueyo)氏は X で自身のビジョンを概説したこのバイラル画像を投稿しました。彼の見解では、拡大するフロンティアはジャグドネスを凌駕していくでしょう。確かに AI は一部の分野で苦手であり、改善が進んでも相対的に苦手なままとなるかもしれませんが、集約された人間の能力のフロンティアは主に固定されており、AI の能力は急速に成長しています。もし AI が自動販売機の運転において相対的に苦手であっても、それでも人間よりも優れた存在になるのであれば、それは問題なのでしょうか。
⟦CODE_0⟧

未来は常に不確実ですが、この考え方には仕事と技術の性質に関するいくつかの重要な側面が欠けていると思います。第一に、フロンティア(最先端領域)は確かに非常に凹凸のあるものであり、その凹凸ゆえに、人間のタスクと完全に重なり合わない超知能 AI が生まれる可能性があります。例えば、この「凹凸」を生む主要な要因の一つとして、大規模言語モデル(LLM: Large Language Models)が新しいタスクを記憶し、永続的に学習できないという点が挙げられます。多くの AI 企業がこの課題に対する解決策を追求していますが、この問題は研究者たちが予想するよりもはるかに難しい可能性があります。記憶機能がなければ、AI は他の分野では人間を超えた能力を発揮しつつも、人間ができる多くのタスクを実行することに苦労することになります。コリン・フレイザー(Colin Fraser)氏は、このような AI と人間の重なり合いがどのようなものになるかを示す 2 つの例を挙げています。ご覧のように、AI は確かに一部の分野では人間を超えていますが、他の分野では人間レベルに遠く及ばないか、あるいは全く重ならないことがわかります。もしこれが真実であれば、AI は人間と補完し合って働く新たな機会を生み出すことになります。なぜなら、私たちそれぞれが異なる能力を備えているからです。
これらは概念的な図解ですが、科学者たちのグループが最近、AI の能力の形状をマッピングしようとし、それが不均一に成長していることを発見しました。これはまさに、不揃いな最前線が予測する通りです。読書、数学、一般知識、推論——これらすべては AI が急速に改善している分野です。しかし、記憶については前述したように、非常に改善の少ない弱点となっています。プロンプトの改善やより優れたモデル(GPT-5.2 は GPT-5 よりもはるかに優れています)によって最前線の形状が変わる可能性はありますが、「不揃いさ」そのものは残ります。
ボトルネック
そして、わずかな不整さ(jaggedness)さえも、超知能を持つ AI がタスクを自動化できなくする問題を引き起こす可能性があります。システムの機能性は、その最悪のコンポーネントによってのみ決定されます。私たちはこれらの問題をボトルネックと呼びます。いくつかのボトルネックは、AI が特定のタスクにおいて頑固に人間未満であることに起因します。LLM による画像診断システム(LLM vision systems)はまだ医療画像の読影が十分ではないため、医師を代替することはできません;LLM は押し返すべき場面でも過度に協調的すぎるため、心理療法士を代替することはできません;ハルシネーション(hallucinations)は発生頻度が減少したとしても依然として存在するため、100% の精度が求められるタスクにはまだ対応できません。そして他にも同様の事例があります。フロンティアがさらに拡大し続けるならば、これらの問題の一部は消滅するかもしれませんが、弱点こそがボトルネックの唯一の形態ではありません。
いくつかのボトルネックは、能力とは無関係のプロセスに起因します。たとえ AI が従来の方法よりも劇的に迅速に有望な薬剤候補を特定できるようになったとしても、臨床試験では依然として実際の患者が必要であり、彼らの募集、投与、モニタリングには実際の日数がかかります。FDA(米国食品医薬品局)もなお申請に対する人間の審査を要求しています。たとえ AI が優れた薬のアイデアの生成率を 10 倍以上に引き上げたとしても、制約となるのは発見の速度ではなく承認の速度です。ボトルネックは知能から制度へと移行し、制度は「制度特有の速度」でしか動きません。
Google の Nano Banana Pro から提供された画像。これについては後ほど詳しく説明します!
そして、AI がほぼ完全に人間を超えている領域であっても、エッジケース(境界事例)には人間の介入が必要となる場合があります。例として、多数の医学研究を統合して特定のトピックに関する科学的合意を明らかにする著名な詳細調査メタスタディであるコクランレビューを再現するために AI を使用した研究を取り上げてみましょう。ある研究者チームは、適切にプロンプトを与えられサポートされた GPT-4.1 が「2 日間でコクランレビューの 1 冊分(n=12)全体を再現・更新し、これは従来の体系的レビュー作業で約 12 人年分に相当する」と報告しました。AI は 146,000 件以上の引用文献をスクリーニングし、論文全文を読み込み、データを抽出し、統計分析を実行しました。実際には、精度において人間の審査員を上回る結果を示しました。奇妙なことに、関連する研究の発見や適切な数値の抽出、結果の統合といった多くの知的に困難な作業は、すでに最先端技術の領域内に確立されています。しかし、AI は補足ファイルにアクセスできず、未公開データの請求のために著者にメールを送ることもできません。これらは人間の審査員が日常的に行う業務です。これらの欠落はレビューにおける誤りの 1% 未満を占めるに過ぎませんが、そのわずかな誤りがプロセスの完全な自動化を不可能にしています。12 人年分の作業が 2 日間に短縮されるのは、科学の実態に関する専門知識を持つ人間がエッジケースに対応する場合に限られます。
これはそのパターンです:ジグザグ性がボトルネックを生み、ボトルネックとは、非常に賢い AI でさえ人間を容易に代替できないことを意味します。少なくとも今はまだそうです。これはある面では良いこと(急速な失業の防止など)ですが、別の面では不満がたまることです(科学的研究を私たちが望むほど速く進めることが難しくなるため)。また、ボトルネックは AI 企業の仕事を、AI を妨げているものに対して AI がより得意になるようにすることに集中させることになります。数学能力が明白な障壁となった後に急速に向上したのと同じようなものです。
歴史学者トーマス・ヒューズはこの現象を指す用語を持っていました。電気システムの発展を研究する中で、彼は進歩がしばしば単一の技術的または社会的問題で停滞することに気づきました。彼はこれを「逆突出部(reverse salients)」と呼びました。これはシステムが飛躍的に前進することを妨げる唯一の技術的または社会的な問題です。

逆突出部(Reverse Salients)
ボトルネックは、AI が実際には決してあることができないという印象を与えることがあります。しかし現実には、進歩が単一のジグザグした弱点によって妨げられているのです。その弱点が逆突出部となり、AI 研究所が突然その問題を解決すると、システム全体が一気に前進することができます。
先月のこの現象における最も強力な例は、Google の新しい画像生成 AI「Nano Banana Pro」です(はい、AI 企業はまだ名前を付けるのが下手です)。これは 2 つの進展を組み合わせたものです:非常に優れた画像作成モデルと、そのモデルを指示するために活用できる非常に賢い AI です。必要に応じて情報を検索しながらモデルを導きます。例えば、私のカワウソのテストにおける究極版を Nano Banana Pro にプロンプトするとこうなります。「カワウソの科学者たちがホワイトボードを使って、AI の WiFi テストにカワウソが乗った状態でのエタン・モリック氏のテスト(これを検索する必要があります)を説明し、ラップトップを使った飛行機のカワウソの写真で壁一面を埋め尽くすことで合格したことを示している」というものです。すると、以下のような画像が生成されます:

一貫性のある言葉、異なるアングル、影、主要なスペルミスはありません。非常に素晴らしい出来栄えです。覚えておいてください、「WiFi を使った飛行機のカワウソ」というプロンプトで 2021 年に得られた画像はこれでした:

しかし、実は非常に優れた画像生成能力こそが、多くの新機能にとってボトルネックとなっていたのです。例えば、PowerPoint のスライドデッキを作成するケースを考えてみましょう。主要な AI 企業は皆、自社の AI に PowerPoint を作成させることに注力してきました。その手段として、AI が得意とするコンピュータコードを記述させ、ゼロから PowerPoint を生成させています。これは困難なプロセスですが、Claude と ChatGPT の両方とも大幅に改善されており、スライドの内容がやや地味であるとしてもです。例えば、私の著書『Co-Intelligence』を Claude に読み込ませて、スライドデッキ要約を作成させました。モデルは非常に賢いのですが、その PowerPoint デッキはコードで記述しなければならないという制約によって限界があります。

次に、Google の NotebookLM アプリケーションで同じことを試した例です。ここでは賢い Gemini AI モデルと Nano Banana Pro を組み合わせています。こちらはコードを使用せず、各スライドを単一の画像として生成しています。画像の品質が低かった時代にはこれは不可能でしたが、今では突然それが可能になりました。

画像は非常に柔軟性があるため、スタイルやアプローチを自由に試すことができます。私は NotebookLM に学習のための科学的根拠に基づく方法について深掘り調査レポートを作成させ、それをさまざまなスタイルで読むことを想定した密度の高いスライドデッキに変換してもらいました。手描き風のデザインのもの、1980 年代パンクにインスパイアされたもの、「非常にドラマチックでコントラストが強く、背景は鮮やかな黄色」という指定のもの、そしてもちろん「飛行機の上のアット(オットセイ)」をテーマにしたものです。

多くの点で、Claude と Gemini の両方にとっての「フロンティア(最前線)」にある難しい部分は、ソース資料、トピック、アイデアを受け取って、それをスライド形式で要約する能力です。ハルシネーション(幻覚・誤情報)は非常に稀であり、出典も正確です。アット(オットセイ)の比喩を作成したり、パンクをテーマにした説明を考え出したりすることも可能です。これは知的に要求される部分ですが、AI はすでに 1 年以上この能力を備えています。しかし、スライドやその他の視覚的プレゼンテーションを作成することは、テキストの壁を有用なものにするためのボトルネックでした。問題は完全に解決されたわけではありません:画像は完璧ではなく、編集もできません(ただし、これは間もなく修正される見込みです)。それでも、これから何が起きようとしているかが見て取れます。
多くの転換点
たとえ AI が分析やパワーポイント作成において人間を超えた能力を獲得したとしても、それが必ずしもコンサルタントやデザイナーの仕事を AI に置き換えることを意味するとは考えません。これらの仕事には、AI が苦手とする一方で人間が卓越している「ジグザグな最前線」に沿った多様なタスクが含まれています。多くの関係者から情報を収集し合意形成を図れるか?人々が実際に必要としているものを決定づける暗黙のルールを理解できるか?AI の素材とは一線を画し、深い課題に独自に対応する何かを創出できるか?このジグザグな最前線には、人間の仕事に対する多くの機会が存在します。
しかし、逆突出(リバース・サリエンツ)に焦点を当てることでボトルネックが突然解消されるような飛躍的な進展も期待すべきです。かつては人間のみが行っていた業務の領域が、AI が実行可能なものへと変化していきます。AI の行先を理解したいのであれば、ベンチマーク結果を見るのではなく、ボトルネックに注目してください。一つでも突破されれば、その背後にあったすべてのことが一斉に流れ込んでくるのです。画像生成はこれまでプレゼンテーションや文書作成、あらゆる種類の視覚コミュニケーションを阻害する要因となっていました。しかし今はもうそうではありません。次なるボトルネックは何でしょうか?記憶力?リアルタイム学習?物理世界における行動実行能力?
どこかの AI 研究所では、今まさにこれらのボトルネックを逆突出として扱っているはずです。突破される際に多くの警告があるとは考えられません。しかし、ジグザグな最前線は両刃の剣です。これまでに起こったすべての飛躍的な進展が、人間が必要とされる新たなエッジ(境界)をさらに生み出してきました。今後にも多くの飛躍的進展があり、同時に多くの機会も生まれるでしょう。その両方に注意を払うべきです。
購読する
共有する

私は Gemini 3 に、この投稿のための魅力的なタイトル画像を作成するよう依頼しました。これがその結果です。
原文を表示
Back in the ancient AI days of 2023, my co-authors and I invented a term to describe the weird ability of AI to do some work incredibly well and other work incredibly badly in ways that didn’t map very well to our human intuition of the difficulty of the task. We called this the “Jagged Frontier” of AI ability, and it remains a key feature of AI and an endless source of confusion. How can an AI be superhuman at differential medical diagnosis or good at very hard math (yes, they are really good at math now, famously outside the frontier until recently) and yet still be bad at relatively simple visual puzzles or running a vending machine? The exact abilities of AI are often a mystery, so it is no wonder AI is harder to use than it seems.
I think jaggedness is going to remain a big part of AIs going forward, but there is less certainty over what it means. Tomas Pueyo posted this viral image on X that outlined his vision. In his view, the growing frontier will outpace jaggedness. Sure, the AI is bad at some things and may still be relatively bad even as it improves, but the collective human ability frontier is mostly fixed, and AI ability is growing rapidly. What does it matter if AI is relatively bad at running a vending machine, if the AI still becomes better than any human?

While the future is always uncertain, I think this conception misses out on a few critical aspects about the nature of work and technology. First, the frontier is very jagged indeed, and it might be that, because of this jaggedness, we get supersmart AIs which never quite fully overlap with human tasks. For example, a major source of jaggedness is that LLMs do not remember new tasks and learn from them in a permanent way. A lot of AI companies are pursuing solutions to this issue, but it may be that this problem is harder to solve than researchers expect. Without memory, AIs will struggle to do many tasks humans can do, even while being superhuman in other areas. Colin Fraser drew two examples of what this sort of AI-human overlap might look like. You can see how AI is indeed superhuman in some areas, but in others it is either far below human level or not overlapping at all. If this is true, then AI will create new opportunities working in complement with human beings, since we both bring different abilities to the table.

These are conceptual drawings, but a group of scientists recently tried to map the shape of AI ability and found that it was growing unevenly, just as the jagged frontier would predict. Reading, math, general knowledge, reasoning — all were things that AI was improving on rapidly. But memory, as we discussed, is a weak spot with very little improvement. Better prompting or better models (and GPT-5.2 is much better than GPT-5) might change the shape of the frontier, but jaggedness remains.

Bottlenecks
And even small amounts of jaggedness can create issues that make super-smart AIs unable to automate a task. A system is only as functional as its worst components. We call these problems bottlenecks. Some bottlenecks are because the AI is stubbornly subhuman at some tasks. LLM vision systems aren’t good enough at reading medical imaging so they can’t yet replace doctors; LLMs are too helpful when they should push back so they can’t yet replace therapists; hallucinations persist even if they have become rarer which means they can’t yet do tasks where 100% accuracy is required; and so on. If the frontier continues to expand, some of these problems may disappear, but weaknesses are not the only form of bottleneck.
Some bottlenecks are because of processes that have nothing to do with ability. Even if AI can now identify promising drug candidates dramatically faster than traditional methods, clinical trials still need actual human patients who take actual time to recruit, dose, and monitor. The FDA still requires human review of applications. Even if AI increases the rate of good drug ideas by ten times or more, the constraint becomes the rate of approval, not the rate of discovery. The bottleneck migrates from intelligence to institutions, and institutions move at institution speed.

Image from Google’s Nano Banana Pro. More on that in a minute!
And even where the AI is almost completely superhuman, humans may be needed for edge cases. As an example, take a study that used AI to reproduce Cochrane reviews, the famous deeply researched meta-studies that synthesize many medical studies to figure out the scientific consensus on a topic. A team of researchers found that GPT-4.1, when properly prompted and supported, “reproduced and updated an entire issue of Cochrane reviews (n=12) in two days, representing approximately 12 work-years of traditional systematic review work.” The AI screened over 146,000 citations, read full papers, extracted data, and ran statistical analyses. It actually outperformed human reviewers on accuracy. Oddly, much of the hard intellectual work — finding relevant studies, pulling the right numbers, synthesizing results — is solidly inside the frontier. But the AI can't access supplementary files and it can't email authors to request unpublished data, things human reviewers do routinely. This makes up less than 1% of errors in the review, but those errors mean you can't fully automate the process. Twelve work-years become two days, but only if a human with expertise in how science is actually done handles the edge cases.
This is the pattern: jaggedness creates bottlenecks, and bottlenecks mean that even very smart AI cannot easily substitute for humans. At least not yet. This is likely good in some ways (preventing rapid job loss) but frustrating in others (making it hard to speed up scientific research as much as we might hope). Bottlenecks also concentrate the work of AI companies into making the AI better at things that are holding it back, the way math ability rapidly improved once it became an obvious barrier. The historian Thomas Hughes had a term for this. Studying how electrical systems developed, he noticed that progress often stalled on a single technical or social problem. He called these “reverse salients” - the one technical or social problem holding back the system from leaping ahead.

Reverse Salients
Bottlenecks can create the impression that AI will never be able to do something, when, in reality, progress is held back by a single jagged weakness. When that weakness becomes a reverse salient, and AI labs suddenly fix the problem, the entire system can jump forward.
The most powerful example of this from the last month is Google’s new image generation AI, Nano Banana Pro (yes, AI companies are still bad at naming things). It combines two advances: a very good image creation model and a very smart AI that can help direct the model, looking up information as needed. For example, if I prompt Nano Banana Pro for the ultimate version of my otter test: “Scientists who are otters are using a white board to explain ethan mollicks otter on a plane using WiFi test of AI (you must search for this) and demonstrating it has been passed with a wall full of photos of otters on planes using laptops.” I get this:

Coherent words, different angles, shadows, no major misspellings. Pretty amazing stuff. Remember, the prompt “otter on a plane using wifi” got this image in 2021:

But it turns out that really good image generation was the bottleneck for a lot of new capabilities. For example, take PowerPoint decks. Every major AI company has been trying to get their AI to make PowerPoint, and they have done this by having the AIs write computer code (which they are very good at) to create a PowerPoint from scratch. This is a hard process, but both Claude and ChatGPT have improved a lot, even if their slides are a little dull. For example, I took my book, Co-Intelligence, and threw it into Claude and asked for a slide deck summary. The model is very smart, but the PowerPoint deck is limited by the fact that it has to be written in code.

Now here is the same thing in Google’s NotebookLM application, using its smart Gemini AI model combined with Nano Banana Pro. It isn’t using code, it is creating each slide as a single image. When image quality was low, this would have been impossible. Suddenly, it isn’t.

And since images are very flexible, I can play with style and approach. I had NotebookLM do a deep research report on science-backed methods of learning and then turn that into dense slide decks meant for reading in a variety of styles: one that looked hand-drawn, one that was inspired by 1980s punk, one that was “very dramatic and high contrast slides with a bright yellow background,” and, of course, one with an otter-on-a-plane theme.

In many ways, the hard stuff is inside the frontier for both Claude and Gemini, they can just take source materials, a topic, and an idea and summarize it in a slide. Hallucinations are very rare, and the sources are correct. It can create otter analogies or come up with a punk-themed description. This is the intellectually demanding part, and AIs have been capable of it for over a year. But making slides or other visual presentations was a bottleneck to making walls of text useful. The problem isn’t completely solved: images are not perfect, and you can’t edit them (apparently this will be fixed soon), but you can see where things are going.
Many lurches
Even if AI becomes superhuman at analysis and PowerPoint, I don’t think that means AI necessarily replaces the jobs of consultants and designers. Those jobs consist of many different tasks along the jagged frontier that AI is bad at and which humans excel: can you collect information and get buy-in from the many parties involved? Can you understand the unwritten rules that determine what people actually need? Can you come up with something unique to address a deep issue, that stands out from AI material? The jagged frontier offers many opportunities for human work.
Yet, we should expect to see lurches forward, where focusing on reverse salients leads to sudden removals of bottlenecks. Areas of work that used to be only human become something that AI can do. If you want to understand where AI is headed, don’t watch the benchmarks. Watch the bottlenecks. When one breaks, everything behind it comes flooding through. Image generation was holding back presentations, documents, visual communication of all kinds. Now it isn’t. What’s the next bottleneck? Memory? Real-time learning? The ability to take actions in the physical world?
Somewhere, right now, an AI lab is treating each of these bottlenecks as a reverse salient. We won’t get much warning when they break through. But a jagged frontier cuts both ways. So far, every lurch forward leaves yet more edges in which humans are needed. There will be many lurches ahead. There will also be many opportunities. Pay attention to both.
Subscribe now
Share

I asked Gemini 3 to come up with a compelling title image for this post, this is what it made.
関連記事
Anthropic、Claude Fable 5 と Claude Mythos 5 を発表:基盤モデルは同一だが安全策が異なり、新「Mythos クラス」 tiers 登場
Anthropic は 2026 年 6 月 9 日、能力が Opus クラスを上回る新 tiers「Mythos クラス」に属する Claude Fable 5 と Claude Mythos 5 を発表した。Fable 5 は一般利用向けに安全策を強化し、Mythos 5 は一部制限を解除した限定版として提供される。
Mythos との協働がもたらす感覚について
著者は Claude 5 Fable(Mythos クラス初の公開 AI モデル)に早期アクセスし、セキュリティ用途以外の多様なタスクでテストした結果、過去のモデルを凌駕する飛躍的な進歩を確認し、人間と AI の関係性が劇的に変化している可能性を示唆しました。
Google の技術を採用した Siri AI が登場、しかし世界の多くは利用不可
Apple は WWDC 2026 で、ゼロから再構築された新 Siri AI を発表し、Google の技術を組み込んで多段階対話を実現したが、多くの地域ではまだ利用できない。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み