GPT-3からGemini 3へ:3年間の進化
Google の新モデル Gemini 3 は、単なるテキスト生成を超えてインタラクティブなゲームやコードを即座に構築・実行できる能力を示し、AI がチャットボットから自律的な開発ツールへと進化していることを実証した。
キーポイント
3 年間の技術的飛躍の実証
2022 年の GPT-3.5 と比較し、Gemini 3 は単に文章を記述するだけでなく、複雑なインタラクティブなゲーム(Candy-Powered FTL Starship Simulator)をコード化して実行できるまでに進化している。
自律的な開発ツール「Antigravity」の登場
Gemini 3 に伴い発表された Antigravity は、Claude Code や OpenAI Codex と同様に、ユーザーのコンピューターにアクセスして指示に従いながら自律的にプログラムを記述・実行できる機能を持つ。
AI の役割定義の変容
記事は、AI を単なるチャットボットとしてではなく、コードやインターフェースを設計し、ユーザーが実際に操作できる環境を提供する「別の存在」として捉えるべきだと指摘している。
Antigravity の新機能と目的
Google はプログラマー向けツール「Antigravity」をリリースし、Claude Code や OpenAI Codex と同様に、ユーザーのコンピュータにアクセスして指示に従い自律的にプログラムを作成できるエージェントを実現しました。
コーディング能力が汎用ツールの鍵となる理由
コンピュータ上で行うすべての行為は究極的にはコードであるという視点により、コードを扱える AI エージェントはダッシュボード作成やファイル処理など、人間ができるあらゆる作業を自動実行する汎用ツールへと進化します。
自然言語による指示と自律的な計画立案
ユーザーは英語で指示を出すだけでよく、AI はその意図を理解してコードを実行し、必要な場合にのみ承認を求めたり計画を提案したりする高度な自律性と対話能力を持っています。
AI エージェントの人間との協働性
Gemini 3 は従来のチャット型プロンプトとは異なり、人間の意図を正しく理解し、選択肢を確認する「チームメイト」として機能し、ユーザーが操作を制御している感覚を与えた。
影響分析・編集コメントを表示
影響分析
この記事は、AI モデルの進化が単なるベンチマークスコアの向上ではなく、実世界での自律的なタスク実行能力(コーディング、ゲーム作成など)へと移行したことを示す重要な転換点である。Gemini 3 と Antigravity の登場により、開発プロセスやソフトウェア利用のあり方が根本から変容し、一般ユーザーでも高度なアプリケーションを生成・操作できる時代が到来する可能性を示唆している。
編集コメント
Gemini 3 の実演は、AI が「話す相手」から「作業を完遂するパートナー」へと役割を変えたことを如実に示しており、開発者および一般ユーザーにとってのワークフロー変革が目前に迫っていることを強く示唆しています。
私は Google の新しい Gemini 3 モデルのテストを行ってきました。非常に素晴らしいモデルです。しかし、ベンチマークの数値をお伝えするのではなく、AI が過去 3 年間でどれほど進化してきたかを、この AI に実際にデモンストレーションしてもらうことでお見せしましょう。
ChatGPT のリリースからわずかに 3 年未満が経過しました。その発売のわずか数日前、私はこの Substack で OpenAI の以前の GPT-3 モデルについて私の最初の投稿を行いました。その後 ChatGPT が登場し、すぐに「私は通常、技術に関する予測を行う際にはかなり慎重な方ですが、これは私たちが予想するよりもはるかに早く、そしてはるかに劇的に私たちの世界を変えると思います。反復的で危険な仕事を自動化するのではなく、AI によって最初に影響を受ける仕事は、より分析的で、創造的であり、執筆やコミュニケーションを多く含むものになる可能性があります」と書きました。
その予測は的中したと考えています。

3 年前に GPT-3.5 を使用した後の私の最初の投稿
元の ChatGPT と、本日リリースされた Google の新しい AI モデルである Gemini 3 の違いについて説明することもできます。しかし、それは必要ありません。代わりに、上記のスクリーンショットを Gemini 3 に渡し、単一のプロンプト(指示)を与えました。
私:「この投稿以降、AI がどれほど進化してきたかを示すために何かやってみて」
ジェミニ:「確かに違いをお見せできます。あなたが共有されたツイートは 2022 年 11 月のもので、まさに現代の AI ブームの直前です。当時、『カandy パワーで駆動する超光速ドライブがビーバーから逃げる』といったおかしな概念について、AI が一貫した段落や簡単な詩を書けることが『わぉ』という驚きでした。
どれほど進化したかを示すために、単にそれについての文章を書くだけではありません。あなたのために、完全にインタラクティブでプレイ可能な『カandy パワー超光速スターシップ・シミュレーター』を構築しました。
2022 年には AI がエンジンの説明をする程度でしたが、2025 年の AI はエンジンをコード化し、インターフェースを設計し、あなた自身が船の操縦を体験できるようにします。」

そして実際に、私はカandy の力でビーバーから逃げる必要がある小さなゲームを構築してもらいました。そこには短い詩や、継続的な面白いアップデートが含まれています。もしあなたがこのブログを読んでいるなら、おそらく AI がそのようなことができることはご存知でしょう。より興味深いのは、ジェミニ 3 をチャットボットとしてではなく、全く別のものとして捉え始めたときに、それができる他のことです。
コーディングツールは単なるコーディングツールではない
Gemini 3 とともに、Google は Antigravity も発表しました。プログラマーにとって、Antigravity は馴染み深い領域でしょう。これは Claude Code や OpenAI Codex に似たもので、コンピュータへのアクセス権限を与えられ、ガイダンスのもとで自律的にプログラムを記述できる専門ツールです。もしあなたがプログラマーでないなら、Antigravity や同様のツールを軽視するかもしれません。しかし、それは誤りだと私は考えます。コードを書く能力はプログラミングに限ったことではなく、コンピュータ上で起こるあらゆる作業が可能になることを意味するからです。そしてこれが、これらのツールが実際に何であるかを変えるのです。
Gemini 3 はコーディングにおいて非常に優れており、あなたが自分の行う業務をプログラミングとは考えていなくても、それはあなたにとって重要なことです。AI 開発を支える根本的な視点の一つに、「コンピュータ上で行うすべての作業は、究極的にはコードである」というものがあります。もし AI がコードと連携できるなら、コンピュータを持つ人間ができることは何でも実現可能です:ダッシュボードの構築、ウェブサイトとの連携、PowerPoint の作成、ファイルの読み込みなどです。これにより、コーディング可能なエージェントが汎用ツールとなります。Antigravity はこの考え方を採用し、「Inbox(受信トレイ)」という概念を備えています。これは AI エージェントにタスクを任せる場所であり、許可や支援が必要になった際に私に通知する場所です。

現在、私は4つの異なるエージェントと作業を行っていますが、そのうち1つは進行中で、もう1つは私の支援を必要としています。
これらのエージェントとはコードを通じてコミュニケーションを取るのではなく、英語で対話し、彼らがコードを使って作業を実行します。Gemini 3 は計画立案が得意なため、何をすべきか、またいつ私の承認を求めるべきかを判断する能力を持っています。例えば、私は Antigravity に、このニュースレターに関するすべての投稿が含まれている私のコンピュータ内のディレクトリへのアクセス権限を与えました。その後、Gemini 3 に「AI について私が行った予測の魅力的なリストを1つのサイトにまとめ、ウェブ検索を行ってどの予測が正しく、どの予測が間違っていたかを確認してほしい」と依頼しました。すると AI はすべてのファイルを読み込み、コードを実行しながら、私が編集したり承認したりできる計画を提示しました。以下のスクリーンショットは、AI がプロジェクトについて初めて私に質問した瞬間のものであり、私の意図を理解している様子は印象的でした。私はいくつかの小さな変更を加えた後、AI に作業を任せることにしました。

その後、AI はウェブ調査を行い、サイトを構築し、私のブラウザを操作してサイトが正常に動作することを確認した上で、結果を提示しました。人間の場合と同様に、私は結果を確認し、いくつかの改善点を提案しました。そして AI は、私がここでデプロイできるように結果をパッケージ化してくれました。

Gemini 3.0 が人間の介入なしにすべてのことを正しく実行できる能力を持っていたわけではありません。エージェントはまだその段階に至っていませんでした。私が目にしたハルシネーション(幻覚)はありませんでしたが、修正した箇所はありました。ただし、それらのエラーは従来の AI の問題というよりは、個別の判断や私の意図に対する人間のような誤解によるものが多かったです。重要なのは、AI がチェックインを行い、その作業が可視化されていたため、私が AI が下す選択をコントロールしていると感じたことです。これはチャットインターフェースを通じて AI にプロンプトを与えるというよりも、チームメイトを管理しているような感覚でした。
PhD レベルの知能?
しかし、Antigravity だけが Gemini 3 を驚かせた唯一の方法ではありません。もう一つは、真の判断力を要する作業に対する扱い方です。このサイトでは何度も言及してきた通り、AI の進歩をベンチマークすることは混乱しています。Gemini 3 はほとんどの統計において決定的なベンチマークでのリードを取っていますが(まだ$200 の GPT-5 Pro モデルに勝てない可能性もありますが、Gemini 3 の不可避な Deep Think バージョンがリリースされた際には状況が変わるかもしれません)。しかし、AI 界隈では「モデルは PhD レベルの知能を持っている」というフレーズが頻繁に繰り返されることになります。
私はそれを検証してみることにしました。Gemini 3 に、10 年前にクラウドファンディングの研究のために使用していた古いファイルのディレクトリへのアクセス権限を与えました。そこには「project_final_seriously_this_time_done.xls」のようなラベルが付けられたファイルや、時代遅れの統計形式のデータが入り混じっていました。私は AI に、「STATA ファイルからデータを把握し、構造を解析し、初期のクリーニングを行って、新しい分析を行い新たな発見ができるように準備してほしい」と指示しました。そして AI は実際にそれを実行し、破損したデータを復元するとともに、環境の複雑さにも対応しました。
次に、私は2年目の博士課程の学生に期待されるような、少規模な独自研究を行う典型的な課題を与えました。それ以上のヒントなしにこう書きました。「素晴らしい、今度はこのデータを使ってオリジナルの論文を書いてください。その分野について深く調査し、論文を単なるクラウドファンディングに関するものではなく、起業家精神またはビジネス戦略における重要な理論的トピックに関するものにしてください。洗練された分析を行い、学術誌に掲載されるかのように文章化してください。」それ以上の提案は行いませんでしたが、AI はデータを検討し、独自の仮説を生成し、統計的に検証し、文書形式で整形された出力を提供してくれました。最も興味深かったのは、何を探すべきかについてのヒントを与えていなかったにもかかわらず、どのようなトピックが面白いかを特定し、保有するデータを用いてどのように実行するかという難しい綱渡りを成功させた点です。これは教えるのが最も難しいことのひとつです。
いくつかの曖昧な指示(「もっと詳しく作成して」「より良くしてください」)の後、14ページの論文が完成しました。

論文の最初の2ページ
これとは別に、AI が独自の指標を考案した点にも感銘を受けました。自然言語処理ツールを用いて、クラウドファンディングのアイデアの説明を他の説明と数学的に比較することで、その独自性を測定する方法です。AI はコードを書き、実行し、結果を確認しました。

では、これは博士号レベルの知能と言えるのでしょうか?ある意味ではそうです。もし「博士号レベルの知能」を研究大学で有能な大学院生が遂行する仕事ができることと定義するなら、yes です。しかし、同時に大学院生特有の弱点もいくつか抱えていました。アイデア自体は良く、実行の多くの要素も優れていましたが、問題点もありました:統計手法の一部にはさらなる検討が必要であり、アプローチの一部は最適化されておらず、証拠に基づけば理論化が行き過ぎている部分もありました。再び、幻覚や誤謬から、より微妙でしばしば人間らしい懸念へと移行したと言えます。興味深いことに、私がある学生に接するように、広範な裁量権を与えて提案を行った際(「クラウドファンディング研究をより網羅的に取り上げ、方法論などを確立することを確認してください」など)、AI は劇的に改善しました。つまり、Gemini にはおそらくさらなる指導が必要だったのかもしれません。まだ到達したわけではありませんが、「博士号レベルの知能」という概念は決して遠いものではないように思われます。
Gemini 3
Gemini 3 は、世界中の数十億の人々が利用可能な、非常に優れた思考・実行パートナーです。また、これは多くのことを示す兆候でもあります:AI の継続的な発展にまだ顕著な減速が見られない事実、エージェント型モデル(agentic models)の台頭、賢い AI をより良く管理する方法を模索する必要性などです。それは AI がどれほど進化してきたかを如実に物語っています。
3 年前は、機械がカワウソについて詩を書くことができることに感銘を受けました。それから 1,000 日にも満たない期間で、私は独自の研究環境を構築したエージェントと統計手法について議論しています。チャットボットの時代は、デジタル・コワーカー(digital coworker)の時代へと移行しつつあります。はっきり言っておきましょう。Gemini 3 は完璧ではありませんし、まだそれを導き確認できる管理者が必要です。しかしそれは、「AI のミスを修正する人間」という「ループ内人間の概念」が、「AI の作業を指揮する人間」へと進化していることを示唆しています。そしてこれが、ChatGPT のリリース以来最大の変化である可能性があります。
購読する
共有する

私は Gemini に「コードのみを使って、Substack での Gemini 3.0 に関する私の投稿用の非常に優れたカバー画像を作成してください。その画像のサイズを調べてください」と尋ねましたが、AI はウェブブラウジングからコーディングまで多様なツールを組み合わせて、数学的な処理だけで画像を作成することに成功しました。
1必須警告:何をしているか分からない状態で AI エージェントにコンピュータへのアクセス権限を与えるのは危険です。彼らはあなたの許可なくファイルを移動または削除する可能性があり、文書を他人に公開することでセキュリティリスクを招く恐れもあります。これらの問題は、ツールが非コード利用者に適応されるにつれて解決されると予想されますが、現時点では非常に注意が必要です。
必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:
{"translation": "翻訳全文"}
原文を表示
I’ve been testing Google’s new Gemini 3 model. It is very good. But rather than give you benchmark numbers, I’m going to show you how far AI has come in three years by asking the AI to demonstrate it.
It has been slightly less than three years since the release of ChatGPT. A few days before that launch, I wrote my first post on this Substack about OpenAI’s earlier GPT-3 model. Then ChatGPT came out, and I wrote immediately afterwards that “I am usually pretty hesitant to make technology predictions, but I think that this is going to change our world much sooner than we expect, and much more drastically. Rather than automating jobs that are repetitive & dangerous, there is now the prospect that the first jobs that are disrupted by AI will be more analytic; creative; and involve more writing and communication.”
I think I got that one right.

My first post after using GPT-3.5 three years ago
I could explain the difference between the original ChatGPT and the new AI model from Google, Gemini 3, that launched today. But I don’t have to. Instead, I gave the screenshot above to Gemini 3 with a single prompt:
Me: “show how far AI has come since this post by doing stuff.”
Gemini: “I can definitely show you the difference. The tweet you shared is from November 2022—right on the cusp of the modern AI boom. Back then, the “wow factor” was that an AI could write a coherent paragraph or a simple poem about a silly concept like a “candy-powered FTL drive escaping otters.”
To demonstrate how far we’ve come, I’m not just going to write text about it. I have built you a fully interactive, playable Candy-Powered FTL Starship Simulator.
In 2022, AI could describe the engine. In 2025, AI can code the engine, design the interface, and let you pilot the ship yourself.”

And, indeed, it built me a tiny game where I had to use the power of candy to escape otters, featuring small poems and an ongoing set of amusing updates. If you’re reading this blog, you probably knew AI could do that. What’s more interesting is what else Gemini 3 can do when you stop thinking of it as a chatbot and start thinking of it as something else entirely
Coding tools that aren’t just coding tools
Along with Gemini 3, Google has launched Antigravity. For programmers, Antigravity should be familiar territory, it is similar to Claude Code and OpenAI Codex, specialized tools that can be given access to your computer and which can autonomously write computer programs with guidance. If you aren’t a programmer, you may dismiss Antigravity and similar tools. I think that is a mistake because the ability to code isn’t just about programming, it’s about being able to do anything that happens on a computer. And that changes what these tools actually are.
Gemini 3 is very good at coding, and this matters to you even if you don’t think of what you do as programming. A fundamental perspective powering AI development is that everything you do on a computer is, ultimately, code, and if AI can work with code it can do anything someone with a computer can: build you dashboards, work with websites, create PowerPoint, read your files, and so on. This makes agents that can code general purpose tools. Antigravity embraces this idea, with the concept of an Inbox, a place where I can send AI agents off on assignments and where they can ping me when they need permission or help.

You can see I am working with four different agents right now, one is working and another needs my help to proceed.
I don’t communicate with these agents in code, I communicate with them in English and they use code to do the work. Because Gemini 3 is good at planning, it is capable of figuring out what to do, and also when to ask my approval. For example, I gave Antigravity access to a directory on my computer containing all of my posts for this newsletter.1 I then asked Gemini 3,0: “I would like an attractive list of predictions I have made about AI in a single site, also do a web search to see which I was right and wrong about.” It then read through all the files, executing code, until it gave me a plan which I could edit or approve. The screenshot below is the first time the AI asked me anything about the project, and its understanding of what I wanted was impressive. I made a couple of small changes and let the AI work.

It then did web research, created a site, took over my browser to confirm the site worked, and presented me the results. Just as I would have with a human, I went through the results and made a few suggestions for improvement. It then packaged up the results so I could deploy them here.

It was not that Gemini 3.0 was capable of doing everything correctly without human intervention — agents aren’t there yet. There were no hallucinations I spotted, but there were things I corrected, though those errors were more about individual judgement calls or human-like misunderstandings of my intentions than traditional AI problems. Importantly, I felt that I was in control of the choices AI was making because the AI checked in and its work was visible. It felt much more like managing a teammate than prompting an AI through a chat interface.
PhD Level Intelligence?
But Antigravity isn’t the only way Gemini 3 surprised me. The other was in how it handled work that required genuine judgment. As I have mentioned many times on this site, benchmarking AI progress is a mess. Gemini 3 takes a definitive benchmark lead on most stats, (although it may still not be able to beat the $200 GPT-5 Pro Model, but I suspect that might change when Gemini 3’s inevitable Deep Think version comes out). But you will hear one phrase repeated a lot in the AI world - that a model has “PhD level intelligence.”
I decided to put that to the test. I gave Gemini 3 access to a directory of old files I had used for research into crowdfunding a decade ago. It was a mishmash of files labelled things like “project_final_seriously_this_time_done.xls” and data in out-of-date statistical formats. I told the AI to “figure out the data and the structure and the initial cleaning from the STATA files and get it ready to do a new analysis to find new things.” And it did, recovering corrupted data and figuring out the complexities of the environment.
Then I gave it a typical assignment that you would expect from a second year PhD student, doing minor original research. With no further hints I wrote: “great, now i want you to write an original paper using this data. do deep research on the field, make the paper not just about crowdfunding but about an important theoretical topic of interest in either entrepreneurship or business strategy. conduct a sophisticated analysis, write it up as if for a journal.” I gave it no suggestions beyond that and yet the AI considered the data, generated original hypotheses, tested them statistically, and gave me formatted output in the form of a document. The most fascinating part was that I did not give it any hints about what to research, it walked the tricky tightrope of figuring out what might be an interesting topic and how to execute it with the data it had - one of the hardest things to teach. After a couple of vague commands (“build it out more, make it better”) I got a 14 page paper.

The first two pages of the paper
Aside from this, I was impressed that the AI came up with its own measure, a way of measuring how unique a crowdfunding idea was by using natural language processing tools to compare its description mathematically to other descriptions. It wrote the code, executed it and checked the results.

So is this a PhD-level intelligence? In some ways, yes, if you define a PhD level intelligence as doing the work of a competent grad student at a research university. But it also had some of the weaknesses of a grad student. The idea was good, as were many elements of the execution, but there were also problems: some of its statistical methods needed more work, some of its approaches were not optimal, some of its theorizing went too far given the evidence, and so on. Again, we have moved past hallucinations and errors to more subtle, and often human-like, concerns. Interestingly, when I gave it suggestions with a lot of leeway, the way I would a student: (“make sure that you cover the crowdfunding research more to establish methodology, etc.”) it improved tremendously, so maybe more guidance would be all that Gemini needed. We are not there yet, but “PhD intelligence” no longer seems that far away.
Gemini 3
Gemini 3 is a very good thinking and doing partner that is available to billions of people around the world. It is also a sign of many things: the fact that we have not yet seen a significant slowdown in AI’s continued development, the rise of agentic models, the need to figure out better ways to manage smart AIs, and more. It shows how far AI has come.
Three years ago, we were impressed that a machine could write a poem about otters. Less than 1,000 days later, I am debating statistical methodology with an agent that built its own research environment. The era of the chatbot is turning into the era of the digital coworker. To be very clear, Gemini 3 isn’t perfect, and it still needs a manager who can guide and check it. But it suggests that “human in the loop” is evolving from “human who fixes AI mistakes” to “human who directs AI work.” And that may be the biggest change since the release of ChatGPT.
Subscribe now
Share

I asked Gemini “using code alone create a really good cover image for my post about Gemini 3.0 in Substack, look up what size those images are” and the AI was able to use a combination of tools, from web browsing to coding, to create an image using math alone.
1Obligatory warning: Giving an AI agent access to your computer can be risky if you don’t know what you are doing. They can move or delete files without asking you and can potentially present a security risk as well by exposing your documents to others. I suspect many of these problems will be addressed as these tools are adapted to non-coders, but, for now, be very careful.
関連記事
Google の技術を採用した Siri AI が登場、しかし世界の多くは利用不可
Apple は WWDC 2026 で、ゼロから再構築された新 Siri AI を発表し、Google の技術を組み込んで多段階対話を実現したが、多くの地域ではまだ利用できない。
マクドナルド、Google 支援の AI ドライブスルー注文システムをテスト中
マクドナルドは、Google が支援する「ArchIQ」と呼ばれるAIシステムを米国の5店舗で試験運用しており、このシステムがドライブスルーでの注文受付や店舗運営をサポートしている。
Anthropic、Claude Fable 5 と Claude Mythos 5 を発表:基盤モデルは同一だが安全策が異なり、新「Mythos クラス」 tiers 登場
Anthropic は 2026 年 6 月 9 日、能力が Opus クラスを上回る新 tiers「Mythos クラス」に属する Claude Fable 5 と Claude Mythos 5 を発表した。Fable 5 は一般利用向けに安全策を強化し、Mythos 5 は一部制限を解除した限定版として提供される。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み