AIの最近の歴史:カワウソ32羽で見る
One Useful Thing の著者が「飛行機で Wi-Fi を使うカワウソ」という一貫したプロンプトを用いて、ディフュージョンモデルの 2021 年から 2025 年までの画像生成能力の劇的な進化と AI ツールの多様化を可視化した分析記事である。
キーポイント
カワウソによる AI 進歩のベンチマーク
著者が偶然生み出した「飛行機で Wi-Fi を使うカワウソ」というプロンプトが、AI 画像生成技術の進化を測る一貫した指標として定着し、2021 年の溶けたような画像から 2025 年の実写レベルまでを可視化している。
ディフュージョンモデルの動作原理と進化
LLM が単語を順次生成するのに対し、ディフュージョンモデルはランダムなノイズから全体像を同時に変形・洗練させるプロセスであり、Midjourney などのツールを用いた年次比較でその精度向上が明確に示されている。
AI ツールの多様化とローカルモデルの台頭
記事は画像生成ツールの成長だけでなく、AI エコシステム全体におけるツールの多様化、急速な技術的改善、そしてローカル・オープンソースモデルの地位向上という 3 つの主要な転換点を指摘している。
スタイルの多様性と著作権問題
拡散モデルは単に写実的な画像を作るだけでなく、バヨージュ編み物や浮世絵など様々な芸術様式を模倣できるが、これにより既存のアーティストの許可なくスタイルを複製する著作権上の懸念が生じている。
ユーザー定義スタイルとオープンソースモデル
Midjourneyでは独自の「スタイルコード」で創作スタイルを共有・適用できるほか、Fluxのようなオープンウェイトモデルは個人が自宅のPCで高品質な画像を生成可能であり、企業独占モデルに匹敵する。
生成プロセスの不確実性
拡散モデルはオープン・クローズドを問わず結果がランダムになりやすく、高品質な画像を得るためには試行錯誤や複数の生成トライが必要である。
マルチモーダル生成の精度向上
従来の拡散モデルとは異なり、LLM が直接画像を生成できるようになり、特定の要素(種別やアクセサリーなど)を正確に指示して修正することが可能になった。
影響分析・編集コメントを表示
影響分析
この記事は、複雑な技術的進歩を一般読者にも直感的に理解できるよう、具体的なビジュアル事例(カワウソ)を用いて解説する効果的なアプローチを示しています。特に、特定のモデルや企業名に依存せず、技術の根本的な進化(ディフュージョンと LLM の違い)を対比させることで、AI 業界全体のパラダイムシフトを理解する上で有益な視点を提供します。
編集コメント
技術的な詳細を解説する前に、親しみやすい事例で読者の関心を引く構成が非常に優れています。AI の進歩を数値や専門用語だけでなく、視覚的な変化として捉えることで、業界のスピード感をより実感できる良記事です。
2 年前、私は飛行機の中で、10 代の娘と一緒に新しい AI 画像生成ツールをいじっていました。その時、Wi-Fi が動作しませんでした。オットセイが彼女の好きな動物だったので、当然のように「wifi を使っている飛行機のオットセイ」と入力したところ、ちょうど接続が回復した瞬間でした。結果として投稿されたスレッドはバイラル(爆発的に拡散)し、「wifi を使っている飛行機のオットセイ」は以来、AI 画像生成の進捗を測る私の定番テストの一つとなっています。

ChatGPT や拡散モデル(diffusion models)が台頭する前の 2021 年、当時最もホットな AI 画像生成ツールであった VQGAN + CLIP で「wifi を使っている飛行機のオットセイ」と入力すると、得られたのはこの程度の結果でした。
これは冗談めかしたプロンプト(指示文)から始まったものですが、私の意図せぬ AI の進捗を測るベンチマークとなりました。そして、ここ数年にわたってこれらのオットセイを追跡することで、過去数年間の AI における 3 つの大きな転換点が見えてきます:多様な種類の AI ツールの台頭、急速な性能向上、そしてローカルおよびオープンソースモデルの現状です。
拡散モデル
私が最初に作成したカワウソたちは、画像生成ツールを用いて作られました。AI の非常に最近の歴史の大部分において、画像生成は拡散(diffusion)と呼ばれるプロセスを使用しており、これは ChatGPT などの大規模言語モデルとは根本的に異なる仕組みです。大規模言語モデルが単語を一つずつ生成し、常に前方へ進んでいくのに対し、拡散モデルはランダムなノイズから始まり、数十段階を経て画像全体を同時に変換します。これは、物語を一文ずつ書いていくのと、大理石の塊から始めて彫刻のように徐々に像へと仕上げていくの違いのようなものです。画像のすべての部分が一度に洗練されていくのであり、順次積み上げられていくわけではありません。言語モデルが「次に何が来るか?」を予測するのではなく、拡散モデルは「このノイズは何になるべきか?」を予測し、反復的な洗練を通じてランダム性を一貫性のある画像へと変換します。
拡散モデルはいくつか存在しますが、私は多くの他の AI ツールよりも長く歴史を持つ Midjourney を使用することが多いです。Midjourney を使うことで、単純なプロンプト「wifi を使いながら飛行機に乗るカワウソ」で示されるように、拡散モデルがどのように時間とともに発展してきたかを見ることができます(本記事のすべての画像と動画において、私は生成された最初の 4 枚の画像の中から最も優れたものを選択しています)。2022 年初頭には溶けたような毛並みでしたが、その年末には指が多すぎたり奇妙なキーボードだったりするが姿が見えるカワウソへと進化しました。2023 年には写実的なカワウソが実現しましたが、依然として奇妙なキーボードと飛行機の窓が残っています。2024 年になると照明や配置が改善され、2025 年には優れた写実性が達成されています。

しかし、拡散モデルが興味深いのは、写実的な画像を作成する能力が高まっていることではなく、さまざまなスタイルの画像を生成できるという事実です。これが AI による画像生成がなぜこれほど論争を呼ぶのかの核心に迫るものです。多くの AI モデルは著作権のある作品を含むウェブ上のあらゆる画像から学習して訓練されているため、許可も報酬もなく生きているアーティストのスタイルで画像を複製できてしまうからです。しかし、これは古くからの芸術家やスタイルに応用した場合にどのように機能するかを見れば理解できます。ここでは「wifi を使っている飛行機内のカワウソ」というプロンプトを、ベイユのタペストリー、エゴン・シェーレ、ストリートアート(グラフィティ)、日本の浮世絵のスタイルで生成した例を示します。(芸術史に関する知識が広ければ広いほど、これらの画像生成ツールにより多くのことをさせることができます)。

拡散モデルは既存のスタイルに限定されません。Midjourney では、任意のクリエイターが好みのスタイルで画像を生成するようにモデルを訓練し、その独自な「スタイルコード」を共有することができます。プロンプトの末尾にこれらのスタイルコードの一つを追加すると、サイバーパンク風のカワウソからカートゥーン調のものまで、非常に異なる結果が得られます。

最後に、もう一つ拡散モデル(diffusion model)による画像をお見せしたいのですが、これは根本的に異なるものです。私は自宅のコンピューターで Flux を使用してこれを作成しました。Midjourney や ChatGPT といったプロプライエタリな AI モデルが企業のデータセンターで動作するのとは異なり、オープンウェイトモデルは誰でもダウンロードし、修正を加え、どこでも実行することができます。この高品質な画像は、テックジャイアントのサーバーによって生成されたのではなく、私の PC に搭載されているグラフィックスカード(GPU)によって生成されました(画像生成に使用したインターフェースである ComfyUI も写っています)。これは、最高峰のクローズドソースモデルの品質と驚くほど近いものです。

オープンかプロプライエタリかを問わず、拡散モデルは往々にして非常にランダムな結果を生み出し、高品質な画像を一枚作成するには複数の試行が必要になることがよくあります。最新の拡散モデル(Google の Imagen 4 など)はより優れた性能を発揮しますが、良質な出力を得るためには依然として多くの運と試行錯誤が伴います。
マルチモーダル画像生成
大規模言語モデルの時代において、ChatGPT などの LLM が画像を作成する際、実際にはこれらの拡散モデルの一つを呼び出して画像を生成し、その結果を表示していました。このプロセスはすべて間接的に行われていたため(LLM が拡散モデルにプロンプトを与え、それが画像を作成するため)、画像作成のプロセスは標準的な画像ジェネレーターを使用する場合よりもさらにランダムに見えるものでした。
しかし、ここ数ヶ月で OpenAI と Google がマルチモーダル画像生成をリリースしたことにより、この状況は変化しました。ノイズから画像へ変換する拡散モデルとは異なり、マルチモーダル生成では、単語を一つずつ追加していくのと同様に、小さな色のパッチを一つずつ追加することで大規模言語モデルが直接画像を作成できるようになります。これにより、AI は作成する画像に対して深い制御力を得ることになりました。私が初めて試した際の結果は、「WiFi を使用している飛行機の上にいるカワウソで、そのラップトップの画面には、同じく WiFi を使用して飛行機の上のカワウソの画像を生成している画像生成ソフトウェアが表示されている」というものです。

しかし、今になって告白しなければならないことがあります。私の娘のお気に入りの動物は単なるカワウソではなく、オタリアなのです。これまで紹介された画像のすべてが、はるかに一般的なカワウソ(river otter)のものでした。ようやくマルチモーダル生成技術のおかげで、父としての立場を正当化することができました。なぜなら、マルチモーダルモデルは具体的な変更や調整を行うことができるからです。「代わりにオタリアにして、モヒカンヘアスタイルに、ゲーミングラップトップには Razer を使わせるように」といった指示が可能です。

視覚的なインパクトを追求し、ランダムに生成された画像を何度も試行して時間をかける必要がある場合は、まだ Midjourney や Imagen を使用しています。しかし、特定の画像を望む場合、現在は常にマルチモーダル画像生成器(multimodal image generators)に頼るようになりました。これらの技術はますます一般的になるでしょう。現時点ではオープンウェイトのマルチモーダル画像生成器はまだ存在しませんが、これは間もなく変わるはずです。
コードによる画像生成と「スパークス」
多モーダル生成は、AI が画像を精密に制御できることを示しています。しかし、より深い問いがあります:AI は実際に自分が作成しているものを理解しているのか、それともトレーニングデータからパターンを再結合しているだけなのか?真の空間推論能力を試すには、コードを使って描画させることが有効です。視覚的なフィードバックもなければ、頼れる事前学習済みの画像パターンもありません。これは、数学的な指示のみを用いて盲目で絵を描くように頼むようなものです。
描画に使用されるコードの中でも特に挑戦的なのが、学術論文の科学図表作成に用いられる数学言語である TikZ です。その目的にはあまりにも不適切なため、「TikZ」の名前は再帰的なドイツ語のフレーズ「TikZ ist kein Zeichenprogramm」(「TikZ は描画プログラムではない」)に由来しています。そのため、描画に TikZ を使用した事例に関するトレーニングデータは極めて少なく、AI はトレーニングからコードを「記憶」しているわけではなく、自ら生成する必要があります。この言語で純粋な数学を用いて画像を作成するのは困難な作業です。実際、現在では廃止された GPT-4 によるユニコーンの TikZ 描画は、非常に影響力のある論文において、大規模言語モデル(LLM)が AGI の「火花」を持っている可能性を示す証拠と見なされました。そうでなければ、なぜそれほど創造的なのか説明がつきません。
参考までに、そのユニコーンがどのようなものだったかを示します:

古い GPT-4 に Wi-Fi を使った飛行機の上にいるビーバーを描かせようとしたときは、少し運が悪かったのですが:

では、より最近のモデルである Gemini 2.5 Pro に TikZ でビーバーを描かせてみるとどうなるでしょうか。完璧ではありません(Gemini は「飛行機の上」という指示を文字通り受け取り、ビーバーが翼の上に座っているように描いていますが)、ピンク色のユニコーンが火花を散らしたことを考えれば、これは明らかに大きな飛躍を表しています。

オープンウェイトモデルもここでも追いつきつつありますが、一般的には最先端のモデルより数ヶ月遅れです。おそらく現在利用可能な最高のオープンウェイトモデルである DeepSeek r1 の新バージョンは、Gemini などのクローズドソースモデルほどではありませんが、TikZ で描かれたビーバーを生成します。しかし、このモデルも引き続き改善していくと予想しています。

これらの描画自体よりも重要なのは、モデルが空間関係についてゼロから推論しているという事実です。そのため、「Sparks」論文の著者たちは、これらのシステムは単に訓練データからのパターンマッチングではなく、実際の理解に近いものを発展させていると示唆しています。
動画
静止画が印象的な進歩を示す一方で、動画生成は AI がどれほど急速に加速しているかを明らかにします。これは 2024 年 7 月時点で利用可能な最高の動画生成器である Runway Gen-3 alpha によって生成された「飛行機上でパソコンの Wi-Fi を使用しているカワウソ」です。
そして、これは 2025 年の Google の Veo 3 で、同じプロンプト「飛行機上でパソコンの Wi-Fi を使用しているカワウソ」を用いて生成されたものです。わずか 1 年足らずでこれほどまでに進化しています。はい、音声も 100% AI によって生成されています。
そして、このテーマを継続して、最先端には及ばないものの追いつきつつあるオープンウェイトの AI モデルが、私の家庭用コンピュータ上で動作可能になっています。以下は、同じプロンプトに対する Tencent の HunyuanVideo の結果です。はい、非常に醜いですが、これは巨大なデータセンターではなく、私の家庭用コンピュータで作成されたものです。
これが意味するもの
カワウソの進化は、いくつかの大きな含意を持つ 2 つの重要なトレンドを明らかにしています。第一に、画像生成から動画、LLM のコード生成に至るまで、幅広い AI 能力において明確な急速な改善が続いていることです。第二に、オープンウェイトモデルは一般的にプロプライエタリ(独占的)モデルほど優れていませんが、最先端の技術から数ヶ月遅れであることが多いということです。
これらのトレンドをまとめると、画像や動画の生成が大半の人々を欺くのに十分になるだけでなく、その能力が広く利用可能になり、オープンモデルのおかげで規制や制御が非常に困難になる方向に進んでいることが明確になります。私は、リアルなものと AI 生成のものを見分けることが不可能な世界に備える必要があると考えています。これは、私たちが楽しむエンターテインメントからオンラインコンテンツへの信頼に至るまで、社会の広範な層に影響を及ぼすことになります。
この最終動画をご覧いただければ、その未来は遠くないことがお分かりいただけるでしょう。私は Veo 3 にシンプルなテキストプロンプトを入力してこの動画を作成しました。ご覧いただいた後(「ミュージカル『キャッツ』のような雰囲気だが、カワウソ版」というプロンプトの結果については事前に謝罪しておきます)、2022 年の最初の Midjourney の画像を振り返ってください。テキストプロンプトから抽象的な毛の塊を生み出すものから、音付きのリアルな動画を生み出すものへと変化するまでの時間は、3 年未満でした。
購読する
共有する
原文を表示
Two years ago, I was on a plane with my teenage daughter, messing around with a new AI image generator while the wifi refused to work. Otters were her favorite animal, so naturally I typed: “otter on a plane using wifi” just as the connection was restored. The resulting thread went viral and “otter on a plane using wifi” has since become one of my go-to tests of progress AI image generation.

In 2021, prior to the rise of ChatGPT and diffusion models, this is what you got for “Otter on a plane using Wifi” from the hottest AI image generator, VQGAN + CLIP
What started as a silly prompt has become my accidental benchmark for AI progress. And tracking these otters over the years reveals three major shifts in AI over the past few years: the growth of multiple types of AI tools, rapid improvement, and the status of local and open models.
Diffusion models
The first otters I created were made with image generation tools. For most of the very recent history of AI, image generation used a process called diffusion, which works fundamentally differently from Large Language Models like ChatGPT. While LLMs generate text one word at a time, always moving forward, diffusion models start with random static and transform the entire image simultaneously through dozens of steps. It is like the difference between writing a story sentence by sentence versus starting with a marble block and gradually sculpting it into a statue, every part of the image is being refined at once, not built up sequentially. Instead of predicting "what comes next?" like a language model, diffusion models predict "what should this noise become?" and transform randomness into coherent images through repeated refinement.
There are a number of diffusion models out there, but I have tended to use Midjourney, which has been around longer than many other AI tools. Using Midjourney allows us to see how diffusion models have developed over time, as you can see with the simple prompt “otter on a plane using wifi” (for every image and video in this post, I pick the best out of the first four images generated). We go from melted fur at the start of 2022 to a visible otter (with too many fingers and a weird keyboard) at the end of that year. In 2023, we get a photorealistic otter, but still a weird keyboard and plane windows. In 2024, the lighting and positioning become better, and by 2025 we have excellent photorealism.

But what makes diffusion models interesting is not their increasing ability to make photorealistic images, but rather the fact that they can create images in various styles. This cuts to the heart of why AI image generation is so controversial, as many AI models are trained on images from throughout the web, including copyrighted work, and can thus replicate images in the style of living artists without their permission or compensation. But you can see how this works when applied to older artists and styles. Here is “otter on a plane using wifi” in the style of the Bayeux Tapestry, Egon Schiele, street art graffiti, and a Japanese Ukiyo-e print. (The wider your knowledge of art history, the more you can make these image creators do).

Diffusion models are not limited to existing styles. Midjourney lets any creator train the model to create images in a style they like and then share those unique “style codes.” If I end a prompt with one of these style codes, I get very different results: ranging from cyberpunk otters to cartoon ones.

I want to show you one last diffusion image, but this one is fundamentally different. I created it on my home computer using Flux. Unlike proprietary AI models like Midjourney or ChatGPT that run in corporate data centers, open weights models can be downloaded, modified, and run by anyone, anywhere. This high-quality image wasn't generated by a tech giant's servers but by the graphics card on my PC (you can also see ComfyUI, the interface I used to generate the image). It is remarkably close to the quality of the best closed-source models.

Whether open or proprietary, diffusion models tend to produce pretty random results, and creating a single quality image can often take multiple tries. The latest diffusion models (like Google’s Imagen 4) do better, but there is still a lot of luck and trial-and-error involved in a good output.
Multimodal Image Generation
For most of the era of Large Language Models, when an LLM like ChatGPT created an image, it was actually calling on one of these diffusion models to make the image and show the results. Because this was all done indirectly (the LLM prompted the diffusion model which created the image), the process of creating an image seemed even more random than working with a standard image generator.
That changed with the release of multimodal image generation by OpenAI and Google in the past couple months. Unlike diffusion models that transform noise into images, multimodal generation lets Large Language Models directly create images by adding tiny patches of color one after another, just as they add words one after another. This gives AIs deep control over the images it creates. Here is "an otter on an airplane using wifi, on their laptop screen is image generation software creating an image of an otter on a plane using wifi," on my very first attempt.

But now I have to confess something: my daughter's favorite animal is not just any otter, it is the sea otter, and every single image so far has been of the much more common river otter. Finally, with multimodal generation, I could vindicate myself as a father, as multimodal models can make specific changes and adjustments: "make it a sea otter instead, give it a mohawk, they should be using a Razer gaming laptop."

I still use Midjourney and Imagen when I am trying to achieve a visual impact and when I am willing to spend a lot of time working through randomized images, but if I want a particular picture, I now always turn towards multimodal image generators. I suspect they will become increasingly common. As of yet, there are no open weights multimodal image generators, but that is likely to change soon.
Using Code for Images and “Sparks”
Multimodal generation shows AI can control images with precision. But there's a deeper question: does AI actually understand what it's creating, or is it just recombining patterns from training data? To test true spatial reasoning, we can force AI to draw using code - no visual feedback, no pre-trained image patterns to lean on. It's like asking someone to paint blindfolded using only mathematical instructions.
One particularly challenging type of code to use to draw is TikZ, a mathematical language used for producing scientific diagrams in academic papers. It is so ill-suited to the purpose that the name TikZ stands for the recursive German phrase "TikZ ist kein Zeichenprogramm" (“TikZ is not a drawing program”). Because of that, there is very little training data on using TikZ for drawings, meaning the AI cannot “remember” code from its training, it has to make it up itself. Creating an image with pure math in this language is a difficult job. In fact, a TikZ drawing of a unicorn by the now obsolete GPT-4 was considered, in a hugely influential paper, to be a sign that LLMs might have a “spark” of AGI - otherwise how could it be so creative? Here is how that unicorn looked, for reference:

I had a little less luck getting the old GPT-4 to draw an otter on a plane using wifi:

But what happens if we ask a more recent model, like Gemini 2.5 Pro, to draw our otter with TikZ? It isn’t perfect (and Gemini took “on a plane” literally and made the otter sit on the wing), but if the pink unicorn showed a spark this certainly represents a larger leap.

And open weights models are catching up here as well, though they generally remain a few months behind the frontier. The new version of DeepSeek r1, probably the best open weights model available, produces a TikZ otter that is not quite as good as the closed source models like Gemini, but I expect that it will continue to improve.

These drawings themselves aren’t as important as the fact that models are reasoning about spatial relationships from scratch. That is why the authors of the “Sparks” papers suggested these systems aren't just pattern-matching from training data but developing something closer to actual understanding.
Video
If still images show impressive progress, video generation reveals just how fast AI is accelerating. This was an “otter on a plane using wifi on a computer” as generated by the best available video generator of July, 2024, Runway Gen-3 alpha.
And this is in Google’s Veo 3 with the same prompt “otter on a plane using wifi on a computer” in 2025, less than a year later. Yes, the sound is 100% AI generated as well.
And, continuing the theme, there are now open weights AI models that can run on my home computer that are behind the state-of-the-art, but catching up. Here are the results from Tencent’s HunyuanVideo for the same prompt. Yes, it's hideous - but this is made on my home computer, not a massive data center.
What this all means
The otter evolution reveals two crucial trends with some big implications. First, there clearly continues to be rapid improvement across a wide range of AI capabilities from image generation to video to LLM code generation. Second, open weights models, while not generally as good as proprietary models, are often only months behind the state-of-the-art.
If you put these trends together, it becomes clear that we are heading towards a place where not only are image and video generations likely to be good enough to fool most people, but that those capabilities will be widely available and, thanks to open models, very hard to regulate or control. I think we need to be prepared for a world where it is impossible to tell real from AI-generated images and video, with implications for a wide swath of society, from the entertainment we enjoy to our trust for online content.
That future is not far away, as you can see from this final video, which I made with simple text prompts to Veo 3. When you are done watching (and I apologize in advance for the results of the prompt “like the musical Cats but for otters”), look back at the first Midjourney image from 2022. The time between a text prompt producing abstracts masses of fur and those producing realistic videos with sound was less than three years.
Subscribe now
Share
関連記事
MAI-Image-2.5 がアリーナランキングで第 3 位に登場(1 分読)
MAI-Image-2.5 は、スタイルの多様性やテキスト描画精度においてアリーナのテキストから画像へのリーダーボードで第 3 位を獲得し、視覚的推論や商業イラスト能力が大幅に向上した。
Midjourney V8が早期公開、生成速度5倍向上も高機能は4倍の料金に
Midjourneyが新モデルV8の早期版をコミュニティテストで公開した。画像生成は大幅に高速化・詳細化されたが、一部機能の利用料金は4倍に値上げされた。
微調整に適したZ-Imageモデルがオープンソース化
6Bパラメータの非蒸留基盤モデルZ-Imageが公開。高品質な画像生成と開発者向けの柔軟な微調整を可能にし、クリエイターの多様なスタイル表現を支援。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み