Three Years from GPT-3 to Gemini 3｜GPT-3からGemini 3へ：3年間の進化 | AIニュース最前線

私は Google の新しい Gemini 3 モデルのテストを行ってきました。非常に素晴らしいモデルです。しかし、ベンチマークの数値をお伝えするのではなく、AI が過去 3 年間でどれほど進化してきたかを、この AI に実際にデモンストレーションしてもらうことでお見せしましょう。 ChatGPT のリリースからわずかに 3 年未満が経過しました。その発売のわずか数日前、私はこの Substack で OpenAI の以前の GPT-3 モデルについて私の最初の投稿を行いました。その後 ChatGPT が登場し、すぐに「私は通常、技術に関する予測を行う際にはかなり慎重な方ですが、これは私たちが予想するよりもはるかに早く、そしてはるかに劇的に私たちの世界を変えると思います。反復的で危険な仕事を自動化するのではなく、AI によって最初に影響を受ける仕事は、より分析的で、創造的であり、執筆やコミュニケーションを多く含むものになる可能性があります」と書きました。 その予測は的中したと考えています。 ![image](https://substackcdn.com/image/fetch/$s_!L1NO!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F4ac6903e-8339-49df-b41f-ff9848694f9f_1239x1166.png) 3 年前に GPT-3.5 を使用した後の私の最初の投稿 元の ChatGPT と、本日リリースされた Google の新しい AI モデルである Gemini 3 の違いについて説明することもできます。しかし、それは必要ありません。代わりに、上記のスクリーンショットを Gemini 3 に渡し、単一のプロンプト（指示）を与えました。 私：「この投稿以降、AI がどれほど進化してきたかを示すために何かやってみて」 ジェミニ：「確かに違いをお見せできます。あなたが共有されたツイートは 2022 年 11 月のもので、まさに現代の AI ブームの直前です。当時、『カandy パワーで駆動する超光速ドライブがビーバーから逃げる』といったおかしな概念について、AI が一貫した段落や簡単な詩を書けることが『わぉ』という驚きでした。 どれほど進化したかを示すために、単にそれについての文章を書くだけではありません。あなたのために、完全にインタラクティブでプレイ可能な『カandy パワー超光速スターシップ・シミュレーター』を構築しました。 2022 年には AI がエンジンの説明をする程度でしたが、2025 年の AI はエンジンをコード化し、インターフェースを設計し、あなた自身が船の操縦を体験できるようにします。」 ![image](https://substackcdn.com/image/fetch/$s_!3f20!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F349214f1-3e41-459d-ac2f-24574f1c75c9_1878x1706.png) そして実際に、私はカandy の力でビーバーから逃げる必要がある小さなゲームを構築してもらいました。そこには短い詩や、継続的な面白いアップデートが含まれています。もしあなたがこのブログを読んでいるなら、おそらく AI がそのようなことができることはご存知でしょう。より興味深いのは、ジェミニ 3 をチャットボットとしてではなく、全く別のものとして捉え始めたときに、それができる他のことです。 コーディングツールは単なるコーディングツールではない Gemini 3 とともに、Google は Antigravity も発表しました。プログラマーにとって、Antigravity は馴染み深い領域でしょう。これは Claude Code や OpenAI Codex に似たもので、コンピュータへのアクセス権限を与えられ、ガイダンスのもとで自律的にプログラムを記述できる専門ツールです。もしあなたがプログラマーでないなら、Antigravity や同様のツールを軽視するかもしれません。しかし、それは誤りだと私は考えます。コードを書く能力はプログラミングに限ったことではなく、コンピュータ上で起こるあらゆる作業が可能になることを意味するからです。そしてこれが、これらのツールが実際に何であるかを変えるのです。 Gemini 3 はコーディングにおいて非常に優れており、あなたが自分の行う業務をプログラミングとは考えていなくても、それはあなたにとって重要なことです。AI 開発を支える根本的な視点の一つに、「コンピュータ上で行うすべての作業は、究極的にはコードである」というものがあります。もし AI がコードと連携できるなら、コンピュータを持つ人間ができることは何でも実現可能です：ダッシュボードの構築、ウェブサイトとの連携、PowerPoint の作成、ファイルの読み込みなどです。これにより、コーディング可能なエージェントが汎用ツールとなります。Antigravity はこの考え方を採用し、「Inbox（受信トレイ）」という概念を備えています。これは AI エージェントにタスクを任せる場所であり、許可や支援が必要になった際に私に通知する場所です。 ![image](https://substackcdn.com/image/fetch/$s_!g_pi!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3d46f934-2f6b-4db4-8ec6-90db72a96fb4_1342x1093.png) 現在、私は4つの異なるエージェントと作業を行っていますが、そのうち1つは進行中で、もう1つは私の支援を必要としています。 これらのエージェントとはコードを通じてコミュニケーションを取るのではなく、英語で対話し、彼らがコードを使って作業を実行します。Gemini 3 は計画立案が得意なため、何をすべきか、またいつ私の承認を求めるべきかを判断する能力を持っています。例えば、私は Antigravity に、このニュースレターに関するすべての投稿が含まれている私のコンピュータ内のディレクトリへのアクセス権限を与えました。その後、Gemini 3 に「AI について私が行った予測の魅力的なリストを1つのサイトにまとめ、ウェブ検索を行ってどの予測が正しく、どの予測が間違っていたかを確認してほしい」と依頼しました。すると AI はすべてのファイルを読み込み、コードを実行しながら、私が編集したり承認したりできる計画を提示しました。以下のスクリーンショットは、AI がプロジェクトについて初めて私に質問した瞬間のものであり、私の意図を理解している様子は印象的でした。私はいくつかの小さな変更を加えた後、AI に作業を任せることにしました。 ![image](https://substackcdn.com/image/fetch/$s_!iw2C!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F748a5067-4fed-449a-bac8-46dfaf5a00b2_2223x1538.png) その後、AI はウェブ調査を行い、サイトを構築し、私のブラウザを操作してサイトが正常に動作することを確認した上で、結果を提示しました。人間の場合と同様に、私は結果を確認し、いくつかの改善点を提案しました。そして AI は、私がここでデプロイできるように結果をパッケージ化してくれました。 ![image](https://substackcdn.com/image/fetch/$s_!wv8T!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9d9bc5fc-2520-4877-9637-4d9d55a63bd4_909x1492.png) Gemini 3.0 が人間の介入なしにすべてのことを正しく実行できる能力を持っていたわけではありません。エージェントはまだその段階に至っていませんでした。私が目にしたハルシネーション（幻覚）はありませんでしたが、修正した箇所はありました。ただし、それらのエラーは従来の AI の問題というよりは、個別の判断や私の意図に対する人間のような誤解によるものが多かったです。重要なのは、AI がチェックインを行い、その作業が可視化されていたため、私が AI が下す選択をコントロールしていると感じたことです。これはチャットインターフェースを通じて AI にプロンプトを与えるというよりも、チームメイトを管理しているような感覚でした。 PhD レベルの知能？ しかし、Antigravity だけが Gemini 3 を驚かせた唯一の方法ではありません。もう一つは、真の判断力を要する作業に対する扱い方です。このサイトでは何度も言及してきた通り、AI の進歩をベンチマークすることは混乱しています。Gemini 3 はほとんどの統計において決定的なベンチマークでのリードを取っていますが（まだ$200 の GPT-5 Pro モデルに勝てない可能性もありますが、Gemini 3 の不可避な Deep Think バージョンがリリースされた際には状況が変わるかもしれません）。しかし、AI 界隈では「モデルは PhD レベルの知能を持っている」というフレーズが頻繁に繰り返されることになります。 私はそれを検証してみることにしました。Gemini 3 に、10 年前にクラウドファンディングの研究のために使用していた古いファイルのディレクトリへのアクセス権限を与えました。そこには「project_final_seriously_this_time_done.xls」のようなラベルが付けられたファイルや、時代遅れの統計形式のデータが入り混じっていました。私は AI に、「STATA ファイルからデータを把握し、構造を解析し、初期のクリーニングを行って、新しい分析を行い新たな発見ができるように準備してほしい」と指示しました。そして AI は実際にそれを実行し、破損したデータを復元するとともに、環境の複雑さにも対応しました。 次に、私は2年目の博士課程の学生に期待されるような、少規模な独自研究を行う典型的な課題を与えました。それ以上のヒントなしにこう書きました。「素晴らしい、今度はこのデータを使ってオリジナルの論文を書いてください。その分野について深く調査し、論文を単なるクラウドファンディングに関するものではなく、起業家精神またはビジネス戦略における重要な理論的トピックに関するものにしてください。洗練された分析を行い、学術誌に掲載されるかのように文章化してください。」それ以上の提案は行いませんでしたが、AI はデータを検討し、独自の仮説を生成し、統計的に検証し、文書形式で整形された出力を提供してくれました。最も興味深かったのは、何を探すべきかについてのヒントを与えていなかったにもかかわらず、どのようなトピックが面白いかを特定し、保有するデータを用いてどのように実行するかという難しい綱渡りを成功させた点です。これは教えるのが最も難しいことのひとつです。 いくつかの曖昧な指示（「もっと詳しく作成して」「より良くしてください」）の後、14ページの論文が完成しました。 ![image](https://substackcdn.com/image/fetch/$s_!vJvs!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3e997e6a-f569-43e0-addc-f97f4c760208_2325x1404.png) 論文の最初の2ページ これとは別に、AI が独自の指標を考案した点にも感銘を受けました。自然言語処理ツールを用いて、クラウドファンディングのアイデアの説明を他の説明と数学的に比較することで、その独自性を測定する方法です。AI はコードを書き、実行し、結果を確認しました。 ![image](https://substackcdn.com/image/fetch/$s_!lbO3!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fc9c0c03a-1306-4e1a-8200-8aa41890418b_2202x1362.png) では、これは博士号レベルの知能と言えるのでしょうか？ある意味ではそうです。もし「博士号レベルの知能」を研究大学で有能な大学院生が遂行する仕事ができることと定義するなら、yes です。しかし、同時に大学院生特有の弱点もいくつか抱えていました。アイデア自体は良く、実行の多くの要素も優れていましたが、問題点もありました：統計手法の一部にはさらなる検討が必要であり、アプローチの一部は最適化されておらず、証拠に基づけば理論化が行き過ぎている部分もありました。再び、幻覚や誤謬から、より微妙でしばしば人間らしい懸念へと移行したと言えます。興味深いことに、私がある学生に接するように、広範な裁量権を与えて提案を行った際（「クラウドファンディング研究をより網羅的に取り上げ、方法論などを確立することを確認してください」など）、AI は劇的に改善しました。つまり、Gemini にはおそらくさらなる指導が必要だったのかもしれません。まだ到達したわけではありませんが、「博士号レベルの知能」という概念は決して遠いものではないように思われます。 Gemini 3 Gemini 3 は、世界中の数十億の人々が利用可能な、非常に優れた思考・実行パートナーです。また、これは多くのことを示す兆候でもあります：AI の継続的な発展にまだ顕著な減速が見られない事実、エージェント型モデル（agentic models）の台頭、賢い AI をより良く管理する方法を模索する必要性などです。それは AI がどれほど進化してきたかを如実に物語っています。 3 年前は、機械がカワウソについて詩を書くことができることに感銘を受けました。それから 1,000 日にも満たない期間で、私は独自の研究環境を構築したエージェントと統計手法について議論しています。チャットボットの時代は、デジタル・コワーカー（digital coworker）の時代へと移行しつつあります。はっきり言っておきましょう。Gemini 3 は完璧ではありませんし、まだそれを導き確認できる管理者が必要です。しかしそれは、「AI のミスを修正する人間」という「ループ内人間の概念」が、「AI の作業を指揮する人間」へと進化していることを示唆しています。そしてこれが、ChatGPT のリリース以来最大の変化である可能性があります。 購読する 共有する ![image](https://substackcdn.com/image/fetch/$s_!f-5x!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe20744fc-7146-409d-8eff-519e9a2d13d7_2181x1296.png) 私は Gemini に「コードのみを使って、Substack での Gemini 3.0 に関する私の投稿用の非常に優れたカバー画像を作成してください。その画像のサイズを調べてください」と尋ねましたが、AI はウェブブラウジングからコーディングまで多様なツールを組み合わせて、数学的な処理だけで画像を作成することに成功しました。 1必須警告：何をしているか分からない状態で AI エージェントにコンピュータへのアクセス権限を与えるのは危険です。彼らはあなたの許可なくファイルを移動または削除する可能性があり、文書を他人に公開することでセキュリティリスクを招く恐れもあります。これらの問題は、ツールが非コード利用者に適応されるにつれて解決されると予想されますが、現時点では非常に注意が必要です。 翻訳全文

GPT-3からGemini 3へ：3年間の進化

背景や根拠まで確認しますか？

関連記事

背景や根拠まで確認しますか？

関連記事

ニュースの次に確認する