The recent history of AI in 32 otters｜AIの最近の歴史：カワウソ32羽で見る | AIニュース最前線

2 年前、私は飛行機の中で、10 代の娘と一緒に新しい AI 画像生成ツールをいじっていました。その時、Wi-Fi が動作しませんでした。オットセイが彼女の好きな動物だったので、当然のように「wifi を使っている飛行機のオットセイ」と入力したところ、ちょうど接続が回復した瞬間でした。結果として投稿されたスレッドはバイラル（爆発的に拡散）し、「wifi を使っている飛行機のオットセイ」は以来、AI 画像生成の進捗を測る私の定番テストの一つとなっています。 ![image](https://substackcdn.com/image/fetch/$s_!ReMa!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fda6d9582-d3de-40e4-95ea-7c1ad0bdd8b5_400x400.jpeg) ChatGPT や拡散モデル（diffusion models）が台頭する前の 2021 年、当時最もホットな AI 画像生成ツールであった VQGAN + CLIP で「wifi を使っている飛行機のオットセイ」と入力すると、得られたのはこの程度の結果でした。 これは冗談めかしたプロンプト（指示文）から始まったものですが、私の意図せぬ AI の進捗を測るベンチマークとなりました。そして、ここ数年にわたってこれらのオットセイを追跡することで、過去数年間の AI における 3 つの大きな転換点が見えてきます：多様な種類の AI ツールの台頭、急速な性能向上、そしてローカルおよびオープンソースモデルの現状です。 拡散モデル 私が最初に作成したカワウソたちは、画像生成ツールを用いて作られました。AI の非常に最近の歴史の大部分において、画像生成は拡散（diffusion）と呼ばれるプロセスを使用しており、これは ChatGPT などの大規模言語モデルとは根本的に異なる仕組みです。大規模言語モデルが単語を一つずつ生成し、常に前方へ進んでいくのに対し、拡散モデルはランダムなノイズから始まり、数十段階を経て画像全体を同時に変換します。これは、物語を一文ずつ書いていくのと、大理石の塊から始めて彫刻のように徐々に像へと仕上げていくの違いのようなものです。画像のすべての部分が一度に洗練されていくのであり、順次積み上げられていくわけではありません。言語モデルが「次に何が来るか？」を予測するのではなく、拡散モデルは「このノイズは何になるべきか？」を予測し、反復的な洗練を通じてランダム性を一貫性のある画像へと変換します。 拡散モデルはいくつか存在しますが、私は多くの他の AI ツールよりも長く歴史を持つ Midjourney を使用することが多いです。Midjourney を使うことで、単純なプロンプト「wifi を使いながら飛行機に乗るカワウソ」で示されるように、拡散モデルがどのように時間とともに発展してきたかを見ることができます（本記事のすべての画像と動画において、私は生成された最初の 4 枚の画像の中から最も優れたものを選択しています）。2022 年初頭には溶けたような毛並みでしたが、その年末には指が多すぎたり奇妙なキーボードだったりするが姿が見えるカワウソへと進化しました。2023 年には写実的なカワウソが実現しましたが、依然として奇妙なキーボードと飛行機の窓が残っています。2024 年になると照明や配置が改善され、2025 年には優れた写実性が達成されています。 ![image](https://substackcdn.com/image/fetch/$s_!3jtO!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F3ac29474-e923-41ab-861a-0b1b5323d810_3146x2080.png) しかし、拡散モデルが興味深いのは、写実的な画像を作成する能力が高まっていることではなく、さまざまなスタイルの画像を生成できるという事実です。これが AI による画像生成がなぜこれほど論争を呼ぶのかの核心に迫るものです。多くの AI モデルは著作権のある作品を含むウェブ上のあらゆる画像から学習して訓練されているため、許可も報酬もなく生きているアーティストのスタイルで画像を複製できてしまうからです。しかし、これは古くからの芸術家やスタイルに応用した場合にどのように機能するかを見れば理解できます。ここでは「wifi を使っている飛行機内のカワウソ」というプロンプトを、ベイユのタペストリー、エゴン・シェーレ、ストリートアート（グラフィティ）、日本の浮世絵のスタイルで生成した例を示します。（芸術史に関する知識が広ければ広いほど、これらの画像生成ツールにより多くのことをさせることができます）。 ![image](https://substackcdn.com/image/fetch/$s_!DKj6!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fea5147a8-703a-46cc-92f0-152c8162a426_2089x2070.png) 拡散モデルは既存のスタイルに限定されません。Midjourney では、任意のクリエイターが好みのスタイルで画像を生成するようにモデルを訓練し、その独自な「スタイルコード」を共有することができます。プロンプトの末尾にこれらのスタイルコードの一つを追加すると、サイバーパンク風のカワウソからカートゥーン調のものまで、非常に異なる結果が得られます。 ![image](https://substackcdn.com/image/fetch/$s_!szla!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fec407383-2cbe-4c26-8b8d-dc4b5e61596b_2098x2072.jpeg) 最後に、もう一つ拡散モデル（diffusion model）による画像をお見せしたいのですが、これは根本的に異なるものです。私は自宅のコンピューターで Flux を使用してこれを作成しました。Midjourney や ChatGPT といったプロプライエタリな AI モデルが企業のデータセンターで動作するのとは異なり、オープンウェイトモデルは誰でもダウンロードし、修正を加え、どこでも実行することができます。この高品質な画像は、テックジャイアントのサーバーによって生成されたのではなく、私の PC に搭載されているグラフィックスカード（GPU）によって生成されました（画像生成に使用したインターフェースである ComfyUI も写っています）。これは、最高峰のクローズドソースモデルの品質と驚くほど近いものです。 ![image](https://substackcdn.com/image/fetch/$s_!Y0VF!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb912b639-cd21-441f-ab27-c6f6ca741c74_1607x989.png) オープンかプロプライエタリかを問わず、拡散モデルは往々にして非常にランダムな結果を生み出し、高品質な画像を一枚作成するには複数の試行が必要になることがよくあります。最新の拡散モデル（Google の Imagen 4 など）はより優れた性能を発揮しますが、良質な出力を得るためには依然として多くの運と試行錯誤が伴います。 マルチモーダル画像生成 大規模言語モデルの時代において、ChatGPT などの LLM が画像を作成する際、実際にはこれらの拡散モデルの一つを呼び出して画像を生成し、その結果を表示していました。このプロセスはすべて間接的に行われていたため（LLM が拡散モデルにプロンプトを与え、それが画像を作成するため）、画像作成のプロセスは標準的な画像ジェネレーターを使用する場合よりもさらにランダムに見えるものでした。 しかし、ここ数ヶ月で OpenAI と Google がマルチモーダル画像生成をリリースしたことにより、この状況は変化しました。ノイズから画像へ変換する拡散モデルとは異なり、マルチモーダル生成では、単語を一つずつ追加していくのと同様に、小さな色のパッチを一つずつ追加することで大規模言語モデルが直接画像を作成できるようになります。これにより、AI は作成する画像に対して深い制御力を得ることになりました。私が初めて試した際の結果は、「WiFi を使用している飛行機の上にいるカワウソで、そのラップトップの画面には、同じく WiFi を使用して飛行機の上のカワウソの画像を生成している画像生成ソフトウェアが表示されている」というものです。 ![image](https://substackcdn.com/image/fetch/$s_!UZdu!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F053d4703-cabc-466c-84ce-4805c98d4b3e_1024x1024.jpeg) しかし、今になって告白しなければならないことがあります。私の娘のお気に入りの動物は単なるカワウソではなく、オタリアなのです。これまで紹介された画像のすべてが、はるかに一般的なカワウソ（river otter）のものでした。ようやくマルチモーダル生成技術のおかげで、父としての立場を正当化することができました。なぜなら、マルチモーダルモデルは具体的な変更や調整を行うことができるからです。「代わりにオタリアにして、モヒカンヘアスタイルに、ゲーミングラップトップには Razer を使わせるように」といった指示が可能です。 ![image](https://substackcdn.com/image/fetch/$s_!ZNLM!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F610dc724-23e0-484d-b353-e5b2f5ca508a_1024x1024.jpeg) 視覚的なインパクトを追求し、ランダムに生成された画像を何度も試行して時間をかける必要がある場合は、まだ Midjourney や Imagen を使用しています。しかし、特定の画像を望む場合、現在は常にマルチモーダル画像生成器（multimodal image generators）に頼るようになりました。これらの技術はますます一般的になるでしょう。現時点ではオープンウェイトのマルチモーダル画像生成器はまだ存在しませんが、これは間もなく変わるはずです。 コードによる画像生成と「スパークス」 多モーダル生成は、AI が画像を精密に制御できることを示しています。しかし、より深い問いがあります：AI は実際に自分が作成しているものを理解しているのか、それともトレーニングデータからパターンを再結合しているだけなのか？真の空間推論能力を試すには、コードを使って描画させることが有効です。視覚的なフィードバックもなければ、頼れる事前学習済みの画像パターンもありません。これは、数学的な指示のみを用いて盲目で絵を描くように頼むようなものです。 描画に使用されるコードの中でも特に挑戦的なのが、学術論文の科学図表作成に用いられる数学言語である TikZ です。その目的にはあまりにも不適切なため、「TikZ」の名前は再帰的なドイツ語のフレーズ「TikZ ist kein Zeichenprogramm」（「TikZ は描画プログラムではない」）に由来しています。そのため、描画に TikZ を使用した事例に関するトレーニングデータは極めて少なく、AI はトレーニングからコードを「記憶」しているわけではなく、自ら生成する必要があります。この言語で純粋な数学を用いて画像を作成するのは困難な作業です。実際、現在では廃止された GPT-4 によるユニコーンの TikZ 描画は、非常に影響力のある論文において、大規模言語モデル（LLM）が AGI の「火花」を持っている可能性を示す証拠と見なされました。そうでなければ、なぜそれほど創造的なのか説明がつきません。 参考までに、そのユニコーンがどのようなものだったかを示します： ![image](https://substackcdn.com/image/fetch/$s_!lMUn!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F5a400389-a9d1-4395-9ffb-502ee129c171_422x463.png) 古い GPT-4 に Wi-Fi を使った飛行機の上にいるビーバーを描かせようとしたときは、少し運が悪かったのですが： ![image](https://substackcdn.com/image/fetch/$s_!DfsV!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F39ba1528-c053-4e29-9e1c-565d06d272f1_1048x971.png) では、より最近のモデルである Gemini 2.5 Pro に TikZ でビーバーを描かせてみるとどうなるでしょうか。完璧ではありません（Gemini は「飛行機の上」という指示を文字通り受け取り、ビーバーが翼の上に座っているように描いていますが）、ピンク色のユニコーンが火花を散らしたことを考えれば、これは明らかに大きな飛躍を表しています。 ![image](https://substackcdn.com/image/fetch/$s_!AlhK!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F8bccce41-fc27-4b27-8ed6-d26b0b065b40_1034x810.png) オープンウェイトモデルもここでも追いつきつつありますが、一般的には最先端のモデルより数ヶ月遅れです。おそらく現在利用可能な最高のオープンウェイトモデルである DeepSeek r1 の新バージョンは、Gemini などのクローズドソースモデルほどではありませんが、TikZ で描かれたビーバーを生成します。しかし、このモデルも引き続き改善していくと予想しています。 ![image](https://substackcdn.com/image/fetch/$s_!9t9L!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F142c94c1-9002-447a-8e2f-c9a416c010a7_1055x454.png) これらの描画自体よりも重要なのは、モデルが空間関係についてゼロから推論しているという事実です。そのため、「Sparks」論文の著者たちは、これらのシステムは単に訓練データからのパターンマッチングではなく、実際の理解に近いものを発展させていると示唆しています。 動画 静止画が印象的な進歩を示す一方で、動画生成は AI がどれほど急速に加速しているかを明らかにします。これは 2024 年 7 月時点で利用可能な最高の動画生成器である Runway Gen-3 alpha によって生成された「飛行機上でパソコンの Wi-Fi を使用しているカワウソ」です。 そして、これは 2025 年の Google の Veo 3 で、同じプロンプト「飛行機上でパソコンの Wi-Fi を使用しているカワウソ」を用いて生成されたものです。わずか 1 年足らずでこれほどまでに進化しています。はい、音声も 100% AI によって生成されています。 そして、このテーマを継続して、最先端には及ばないものの追いつきつつあるオープンウェイトの AI モデルが、私の家庭用コンピュータ上で動作可能になっています。以下は、同じプロンプトに対する Tencent の HunyuanVideo の結果です。はい、非常に醜いですが、これは巨大なデータセンターではなく、私の家庭用コンピュータで作成されたものです。 これが意味するもの カワウソの進化は、いくつかの大きな含意を持つ 2 つの重要なトレンドを明らかにしています。第一に、画像生成から動画、LLM のコード生成に至るまで、幅広い AI 能力において明確な急速な改善が続いていることです。第二に、オープンウェイトモデルは一般的にプロプライエタリ（独占的）モデルほど優れていませんが、最先端の技術から数ヶ月遅れであることが多いということです。 これらのトレンドをまとめると、画像や動画の生成が大半の人々を欺くのに十分になるだけでなく、その能力が広く利用可能になり、オープンモデルのおかげで規制や制御が非常に困難になる方向に進んでいることが明確になります。私は、リアルなものと AI 生成のものを見分けることが不可能な世界に備える必要があると考えています。これは、私たちが楽しむエンターテインメントからオンラインコンテンツへの信頼に至るまで、社会の広範な層に影響を及ぼすことになります。 この最終動画をご覧いただければ、その未来は遠くないことがお分かりいただけるでしょう。私は Veo 3 にシンプルなテキストプロンプトを入力してこの動画を作成しました。ご覧いただいた後（「ミュージカル『キャッツ』のような雰囲気だが、カワウソ版」というプロンプトの結果については事前に謝罪しておきます）、2022 年の最初の Midjourney の画像を振り返ってください。テキストプロンプトから抽象的な毛の塊を生み出すものから、音付きのリアルな動画を生み出すものへと変化するまでの時間は、3 年未満でした。 購読する 共有する

AIの最近の歴史：カワウソ32羽で見る

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト