On Working with Wizards｜ウィザードとの協業について | AIニュース最前線

私の著書『Co-Intelligence』では、人々が AI とどのように協働すべきかという方法を提示しました。それは驚くべきことではありませんが、AI を「共知能」として扱うというものです。チャットボットとチームを組むことで、人間は AI を一種のインターンや同僚として活用し、その誤りを修正し、成果を検証し、アイデアを共同で開発し、正しい方向へと導くことができます。ここ数週間の間に、私は共知能の重要性は今なお変わらないが、AI の性質が別の方向へ向き始めていると考えるようになりました。私たちはパートナーシップから観客へ、協働から創造へと移行しつつあります。 この変化を説明する良い方法は、私が著書を書いた以来の世界で何が起こったのかについて AI に解説を求めることです。私は私の著書と、約 140 の「One Useful Thing」の投稿（ついでに言うと、これほど多くの投稿を書き溜めたことに自分でも驚いています！）を NotebookLM に読み込ませ、AI の世界で何が起きたかについての動画を作成するための基本的なプロンプトと共に、新しいビデオ概要オプションを選択しました。 数分後、これが得られました。そして、これはかなり良い出来です。私の著書が出版されて以来の世界の動向について最新情報を入手する価値があるほどに、よくできています。 しかし、AI はどのようにしてその要点を選んだのでしょうか？私は知りませんが、それらは非常に的確でした。どのスライドを使用するかをどう決定したのでしょうか？これも私にはわかりませんが、それもかなり的を射ていました（ただし画像は依然としてやや弱点のようで、約束されたオッターは表示されませんでした）。それは正しいのでしょうか？それが何か確認すべきことのように思えました。 そこで、私はその動画を何度も確認し、すべての事実をチェックしました。MMLU スコアに関するデータや神経外科手術試験データにおける AI のパフォーマンスの結果など、数値はすべて正確でした（私がいつその資料を引用したのかさえも確信が持てません）。私の唯一の本当の問題点は、ボストン・コンサルティング・グループの研究において「ジャギッド・フロンティア」という用語を導入した際、私は複数の共著者の一人であったことを明記すべきだったという点です。また、AI が言ったようにすべてを言うべきではなかったでしょう（少し大げさで、私の本はまだ時代遅れではありませんが）、実質的な誤りはありませんでした。 このプロセスは、新しい波の AI において典型的であると考えます。複雑なタスクの範囲が増えるにつれて、あいまいな要求に対して驚くほど洗練された出力が得られますが、その過程に自分が関与することはできません。AI がどのような選択をしたのか、またすべてのことが完全に正しいかどうかを確認することもできません。私たちはプロセスを形成する共同作業者から、結果を受け取る請願者へと移行しています。これは共知能（co-intelligence）と協力することから、魔法使い（wizard）と協力することに変わる転換です。魔法は行われますが、その結果をどう扱えばよいか常にわかるとは限りません。このパターン——印象的な出力、不透明なプロセス——は研究タスクにおいてさらに顕著になります。 魔法を求める 現在、GPT-5 Pro を上回る魔法のような存在感を放つ AI モデルはありません。ただし、このモデルは有料ユーザーのみが利用可能です。GPT-5 Pro は、正直言って驚くべき成果をいくつか達成できる能力を持っています。例えば、私はある学術論文を読み込み、「この論文の手法を批判し、より良い手法を見つけて適用せよ」という指示を与えました。これは単なる論文ではなく、私のジョブマーケットペーパー（就職市場用論文）でした。つまり、私が学者として初めて手がけた主要な作品です。執筆には1年以上かかり、最終的に主要な学術誌で査読を経て出版されるまでに、私の分野における最も優秀な人々の多くが慎重に読み込みました。 9分40秒後、私は非常に詳細な批判を受け取りました。これは単なる編集上の批評ではなく、GPT-5 Pro は実際にコードを用いて独自の実験を実行し、私の結果を検証しました。その中にはモンテカルロ分析の実施や、統計モデルにおける固定効果の再解釈も含まれていました。その結果、多くの提案がなされました（幸いにも「論文の主要な主張は検証に耐える」と結論付けてくれました）が、特に目立った提案がありました。それは以前から見過ごされていた小さな誤りを見つけ出したことです。この誤りは、2 つの表に含まれる異なる 2 つの数値セットに関連するものでした。これらは私の論文で明示的に記述されていない方法で相互に関連付けられていました。AI はその些細な誤りを発見しましたが、これまで誰も気づいていませんでした。 ![image](https://substackcdn.com/image/fetch/$s_!iDvt!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fd80aac82-5e8b-4c7d-84d3-c8d34f7821c8_831x932.png) 再び、私はウィザードの問題に直面しました：これは正しいのか？結果を確認すると確かにそうでしたが、AI がどのようにしてこの問題に気づいたのか、また他の主張したことが記述通りに行われたのかについては依然として全くわかりません。しかし、GPT-5 Pro の分析には感銘を受けました。そのため現在、私はあらゆる種類の課題を大小問わずモデルに投げかけています。「ガートナーのハイプサイクルは実在するのか？」「国勢調査データは大企業における AI 利用が減少していることを示しているのか？」といった問いに対し、GPT-5 Pro に尋ねれば正しい答えが得られるはずです。そう思っています。まだ誤りを見つけてはいませんが、それは誤りが存在しないという意味ではありません。もちろん、AI が何らかの良質な回答を提供できないタスクも数多くあります。ウィザードについて誰がわかるでしょうか？ これが間もなくより広範な業務に適用されるようになる様子を見るために、もう一つの高度な AI である Claude 4.1 Opus を考えてみましょう。このモデルは最近、ファイルとの連携機能を獲得しました。特に Excel において卓越した能力を示すため、私がよく知る Excel ファイルで難易度の高い課題を与えてみました。私の起業家教育クラスで使用している演習の一つに、不確実性に対処する方法を教える lessons として、小さな机製造企業の財務モデルを分析するものがあります。私は Claude に古いマルチタブ形式の Excel ファイルを与え、全体の演習の目的を維持しつつ、新しいビジネス（チーズ専門店）向けにこのファイルを更新するように依頼しました。 ![image](https://substackcdn.com/image/fetch/$s_!AZG7!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F4deccb99-02ff-4b14-a0e8-1e9858c9b816_843x477.png) その指示一つだけで、AI は授業計画書と古いスプレッドシート（英：spreadsheets）を読み込み、数式もそのままに、チーズショップに適した新しいスプレッドシートを作成しました。数分後、たった一つのプロンプト（英：prompt）で、私のコンピュータには完全にデータが書き換えられつつも、重要な教訓を伝えるという点では変わらない、新たな変換済みのスプレッドシートがダウンロードされていました。 ![image](https://substackcdn.com/image/fetch/$s_!V_aY!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F295ee922-faee-4f17-85f8-6b5628f62b28_2497x1968.png) 左側が元の文書、右側が Claude が生成したものです。 再び言いますが、この「魔法使い」は自らの技の秘密を明かさなかったため、私は結果を慎重に確認する必要がありました。私が目にした限りでは、その成果は非常に良好で、新しい文脈においても教訓が正しく保持されていました。ただし、数式やビジネスモデル（英：business modelling）の一部には、私なら異なるアプローチをとる箇所もいくつか見受けられました（例えば、年間の営業日数をもう少し減らしたでしょう）。しかし、それは本質的な誤りというよりは、単なる意見の相違のように感じられました。 Claude がどこまでできるか興味深く思っていたのと、誰もが「AI は PowerPoint を作れるのか」と尋ねてくるので、「素晴らしい、このビジネスのための良い PowerPoint を作って」とプロンプトを入力し、以下の結果を得ました。 ![image](https://substackcdn.com/image/fetch/$s_!BmJ9!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ff86b03bd-e9d2-4b06-97ef-e2909dc7e18d_1927x943.png) これはピッチデッキのかなり堅実なスタートであり、重大な誤りはありませんが、すぐに使える状態ではありません。これは AI の不揃いな最前線（フロンティア）を強調しています：AI は特定の分野では非常に優れていますが、経験がないと予測が難しい方法で他の分野では劣っています。私は、拡大し続ける AI 能力の領域内で例を示してきましたが、それは AI がすべてのことを等しく容易にできるという意味ではありません。しかし、本稿での私の焦点は、AI 能力の拡大範囲そのものよりも、私たちが AI と持つ関係性の変化にあります。 ウィザード（魔法使い）の問題 これらの新しい AI システムは本質的にエージェントであり、与えられた目標に向かって自律的に計画し行動する AI です。Claude にスプレッドシートの変更を依頼した際、それは元のスプレッドシートを読み込むところから始まり、新しいものを作成するコードを書くに至るまでの手順を計画して実行しました。しかし、予期せぬエラーにも適応し、私からの指示なしに 2 回もスプレッドシートを修正し、回答を複数回検証しました。これらの手順を選択したのは私ではなく、実際には、強化学習によって駆動される新しい世代のエージェントにおいては、誰も手順を選択しません。モデル自身が問題を解決するための独自の手法を学習するのです。 ![image](https://substackcdn.com/image/fetch/$s_!B3Z0!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fd3d41b8f-9c46-420e-9f1f-02b64074a690_1451x610.png) スプレッドシートを変更するために Claude が報告した手順の順序 介入できないだけでなく、AI システムが実際に何をしたのかを完全に確信することもできません。Claude が報告した手順は単なる作業の要約に過ぎず、GPT-5 Pro はさらに少ない情報しか提供せず、NotebookLM は動画作成のプロセスについてほとんど洞察を与えてくれません。仮に手順が見えたとしても、コーディングから起業まで多岐にわたる分野の専門家である必要があり、AI が何をしているのかを本当に理解するためにはそうしなければなりません。もちろん、正確性の問題もあります。すべての事実を確認せずに、AI の正確性をどうやって判断できるでしょうか？また、事実が正しくても、それらをどのように提示し、枠組みを作るかについて私が異なる判断を下したかもしれません。しかし、私は何もできません。なぜなら、魔法使いたちは私の助けを望んでおらず、自分たちさえ説明できない秘密裏の方法で活動しているからです。 この難しさは、結果が良い点にあります。非常に良いのです。私はこの記事で AI に与えた 3 つのタスクにおける専門家ですが、これらの出力に事実上の誤りは一切見つけられませんでした。ただし、いくつかの細かなフォーマットの誤りや、私が異なる選択をしたであろう箇所はありました。もちろん、すべての詳細を確認しない限り、文書が完全に誤りがないかどうかを確約することはできません。場合によっては、自分で作業を行うよりも遥かに少ない時間で確認できることもあれば、逆に非常に多くの時間がかかることもあります。また、AI の仕事があまりにも洗練されているため、仮に確認を試みても不可能なケースさえあります。 そしてそれは、私たちが十分に議論していない別のリスクを示唆しています：私たちは何かを魔法使い（ウィザード）に任せるたびに、自分自身の専門性を育む機会を失い、その魔法使いの仕事の評価に必要な判断力を構築するチャンスを逃しているのです。 しかし、私は不可避な点に戻ります。結果は良いのです。少なくともこれらのケースにおいては。これらは、数時間（あるいは私の論文の再分析の場合のようにそれ以上）働いた大学院生から期待される成果と同等ですが、私が得たのは数分後でした。 これが魔法使いの問題です：私たちは何か魔法のようなものを手に入れますが、同時に、魔法使いやその助手ではなく、単なる観客へと成り下がってしまいます。共知能（co-intelligence）モデルでは、私たちは導き、修正し、協力しました。しかし現在、ますます頻繁に、私たちはプロンプトを入力し、待ち、そして確認する…もし可能であれば、そうしています。 では、ウィザードをどう扱うべきでしょうか。私は新しいリテラシーを育成する必要があると考えます。まず第一に、いつウィザードを召喚すべきか、いつ AI を共知能（co-intelligence）として協力させるべきか、あるいは全く使用しないべきかを学ぶことです。AI はまだ完璧ではなく、依然として苦手とする分野では人間の方が成功することが多いです。しかし、AI が有用となるタスクの数は増え続けており、そのような場面では、必要な行き来を伴う共知能（co-intelligence）が、機械単独よりも優れていることがよくあります。それでもなお、ウィザードを召喚し、その結果を信頼することが最善となる局面は、ますます増えています。 第二に、プロセスではなく出力の鑑賞家になる必要があります。AI が提供する出力の中から選別・編集するだけでなく、AI と十分に協力して、それが成功する時と失敗する時の直感を養うことが必要です。何が正しく、何が外れており、何を知らないことによるリスクがある価値あるものかを判断することを学ばなければなりません。これは教育にとって難しい課題を生み出します。AI 自体が習熟を妨げる状況下で、未熟な分野における作業を検証する人材をどう育成するかという問題です。このギャップに対処する方法を見出すことは、ますます緊急性を増しています。 最後に、仮定的信頼（provisional trust）を受け入れることです。ウィザード・モデルとは、「十分良好」なものとの協働をより頻繁に行うことを意味します。これは基準を下げるからではなく、完全な検証がもはや不可能になっているからです。問われるべきは「これが完全に正しいか？」ではなく、「この目的に対して十分に有用か？」です。 私たちはすでに技術的な魔法を信頼することに慣れています。経路を理解せずに GPS を使ったり、アルゴリズムに自分の見るものを選ばせたりするたびに、私たちは異なる種類の魔術師を信頼していることになります。しかし、決定的な違いがあります。GPS が失敗した場合は、行き止まりに到達した瞬間にすぐに気づきます。Netflix が間違った映画を推薦しても、単に見なければよいだけです。しかし、AI が私の研究を分析したりスプレッドシートを変換したりする場合には、その精度が上がるほど、それが間違っているかどうかを知ることは難しくなります。AI の魔術師と協力することのパラドックスは、能力と不透明性が同時に高まることです。私たちは、これらのツールを最も検証できないタスクのために必要としています。これは昔話から得られる古い教訓です：魔法が優れるほど、その神秘性は深まります。私たちは引き続き魔術師たちを呼び寄せ、できる範囲で確認し、呪文が機能することを願うでしょう。1 週分の分析にわずか 9 分しかかからないのに、なぜそうしないでしょうか？魔術師の時代へようこそ。 購読する 共有する ![image](https://substackcdn.com/image/fetch/$s_!_7Xu!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ffd787c39-049e-40b0-8e6e-d0938a977c96_1376x864.png)

ウィザードとの協業について

背景や根拠まで確認しますか？

関連記事

背景や根拠まで確認しますか？

関連記事

ニュースの次に確認する