あなたはモード崩壊のリスクから免れない(8 分読了)
本記事は、AI モデルが学習データや過去の生成結果に依存して多様性を失う「モード崩壊」の現象を解説し、専門化による偏りを防ぐための外部圧力や変数の導入という対策を提言している。
キーポイント
モード崩壊の定義と具体例
モデルが最も一般的な出力のみを繰り返し生成する現象であり、不均衡な学習データ(犬が多い場合猫が少ないなど)や、過去の成功に基づくシステムの過剰な専門化によって引き起こされる。
多領域への波及影響
画像生成だけでなく、助成金交付の決定プロセスや音楽制作などの分野でも同様の偏りが生じ、システムが時間とともに画一的かつ狭い範囲に特化してしまうリスクがある。
対策としての多様性の確保
過剰な専門化を防ぐためには、意図的に変数(バリエーション)を導入したり、外部からの圧力や条件を変化させたりして、出力の多様性を維持する必要がある。
影響分析・編集コメントを表示
影響分析
この記事は、生成 AI の実用化における隠れたリスクである「画一性」を指摘し、開発者が単なる性能向上だけでなく、出力の多様性と公平性をどう担保するかという重要な課題に目を向けるよう促しています。特に、AI が意思決定やクリエイティブ支援に関わる領域で導入される際の品質保証やバイアス対策において、この概念は実務上の指針として極めて重要です。
編集コメント
「性能が高い=良い」という単純な評価基準に陥りがちな中で、多様性の欠如という逆説的なリスクを指摘する視点は貴重です。実運用における品質担保の観点からも、この概念は開発者にとって避けて通れない課題と言えます。
「モード崩壊」とはいくつかの現象を指します。まず、初期の画像生成 AI が学習データ分布における「最頻値」の出力のみを生産する傾向に*崩壊*するという観察でした(白いフェンスと庭の木がある家など、非常に一般的な出力です)。次に、AI に対して AI 生成入力で訓練すると、この効果が極めて急速に発生するという観察がなされました。その後、これはしばらくの間、「AI が壁にぶつかった」と主張する人々の「今日のコピウム(希望的観測)」となりました。彼らは AI 業界が自らの首を絞めるようにして消滅してしまうと考え、したがって人間より賢い AI がもたらす可能性のある問題に対処する必要はないと考えていました。そしてそれは忘れ去られました。なぜなら、何をすべきかを知っていれば、AI 生成入力で訓練することは実際には十分に可能であることが判明したからです。
また、これは助成金交付団体が強い慣性を持つ理由であり、お気に入りのバンドの曲が 3 枚目のアルバム以降すべて同じように聞こえる理由であり、貿易による利益がない場合でも専門化すべきである理由でもあります。
画像生成 AI
画像を生成する AI を想像してみてください。この AI は以下のようなものを入力として受け取ります:
元の画像:https://commons.wikimedia.org/wiki/File:Dog_Breeds.jpg
そして、真ん中の空白部分を埋めるように訓練されていると仮定しましょう。ゴールデンレトリバーとタビー猫を 50:50 の割合で混合したデータセットで訓練されているとします。任意の画像に対して、まず retriever(ゴールデンレトリバー)を描くか cat(猫)を描くかを決定する必要があり、次にその動物が具体的にどのように見えるべきかを決定する必要があります。モデルには限られたパラメータ空間しかなく、それを 3 つのタスクに配分しなければなりません:
- 欠けている動物が犬か猫かを推測する
- 犬の画像を生成する
- 猫の画像を生成する
まずタスク (1) は無視して、モデルがどのようにしてタスク (2) と (3) の間で能力を配分するかについて考えてみましょう。猫と犬を描く難易度が同等で、両カテゴリにおいて能力投入に対するリターンの逓減が生じ、かつカテゴリの出現頻度も等しい場合、モデルは両方のタスクに同程度の能力を割り当てるはずです。再び、クラスが対称であるため、タスク (1) からの予測も犬:猫で 50:50 になると予想されます。
では、犬と猫の比率が 70:30 の場合はどうなるでしょうか?第一次的な効果として、モデルはタスク (2) にタスク (3) より多くのリソースを割り当てることになります。これは明白ですが、二次的な効果も存在します:
モデルが、欠けている動物が犬である確率が 50%、猫である確率も 50%(犬の方が一般的という事実を考慮した上でも)と考えている状況を想像してください。このモデルには以下の選択肢があります:優れた犬の画像を生成するか、平凡な猫の画像を生成するかです。どうすべきでしょうか?
もし動物の種類を間違えれば、どちらにせよ失敗ですが、正しく当てた場合であれば、犬を描いた方がマシです。したがって、モデルは犬を描く側に誤差を許容すべきなのです!この分布は*モード(最頻値)*ターゲットへと押しやられています。
もし最初の生成器の出力を学習対象として別の生成器を訓練すれば、その生成器は*さらに頻繁に*犬を生成するようになります!これがモード崩壊です。
これは 2 つの部分からなるプロセスです。各*個別の*ステップが分布をわずかにモードへとシフトさせ、各*連続する*ステップが前のステップでのシフトを固定し、それを増幅します。
もし脚注をお読みになりたいのであれば、この考え方は他のいくつかの状況にも一般化されます。
助成金提供者
さて、あなたが慈善家として、資金を配分する助成金管理者を雇う状況を想像してください。あなたは、グローバルヘルスに関する提案と動物福祉に関する提案が 70:30 の割合で混在したものを手に入れます。
当然のことながら、あなたはグローバルヘルスプロジェクトの評価において、動物福祉プロジェクトの評価よりもわずかに優れた人物を採用します。するとその従業員は、より容易に最良のグローバルヘルス提案を選別できるため、助成金の配分を 75:25 の比率で行います。
次の助成金交付の会議では、拡大を決断します。あなたの従業員は2人の新規採用者を迎え入れ、昨年の助成金に基づいた評価プロセスを彼らに指導します。彼らは75:25という比率でデータに訓練され、動物福祉に関する提案よりもグローバルヘルスに関する提案の評価において著しく向上します。
あなたの好きなバンド
これでパターンがお分かりでしょうか?そのバンドは最初のアルバムで、夢のようなポップソング7曲とプログレッシブロック風ソング5曲を書きました。次に、彼らは前者の作成が得意であるため、次のアルバムでは9:3の比率にし、3枚目にはロックを完全に放棄してしまいます。
しかし5枚目のアルバムになると、ロックに飽きてしまい、「インテリジェント・ダンス・ミュージック」(実際には踊るためのものではないようですが!)と呼ばれる何かを作ろうと決意します。4枚目のアルバムのツアーで得た数百万ドルが、彼らに十分な時間を与え、休憩を取り、[電子音楽家が音楽を作るために使用する奇妙なガジェット]の使い方を学ぶことができました。スラック(Slack)が救世主として現れます!
労働の分業
人々は通常、労働の分業を「貿易による利益」に帰因します。貿易はその一部ですが、すべてではありません。
商品やサービスを金銭と交換する能力は、私たちを画像分類器と同じ状況に置きます。私たちのモデルが、「犬」か「猫」のどちらが生成すべき正しい画像であるかを50%ずつの可能性だと考えていた時を思い出してください。現代経済では、会計士として1日働くことでもパーソナルトレーナーとして1日働くことでも、報酬を得る可能性は同程度です。ただし、その確率は50%ではなく約100%なのです。
会計士としてのスキルは、「一日の良好な会計業務」を生成するモデルとみなすことができます。同様に、パーソナルトレーナーとしてのスキルもそうです。一度でも数日間の会計業務を行えば、あなたは自分自身の生成物(ある意味で)に依存し、「一日の良好な会計業務」に関するあなたのモデルは次第に洗練されていきますが、「一日の良好なパーソナルトレーニング業務」に関するモデルは取り残されたままになります。
これは貿易が存在しない場合でも機能することに注意してください。例えば、無人島にいると仮定しましょう。晴れなら狩りに行き、曇りなら漁に出ます。活動するたびに、そのスキルは次第に向上します。もし天候が 4 分の 3 の確率で晴れるなら、あなたは漁よりも狩りの方がずっと上手くなります。まもなく、雲が少しかかっただけでも狩りに行くなり、太陽の差し込む場所がある程度曇っているときにも狩りに行き、最終的には毎日狩りをするようになります。少なくとも現地の動物相をすべて絶滅させるまでです。その後、あなたは困ったことになります。
Slack
私は、モード崩壊(mode collapse)は一般化された概念として、時間とともに基本的にすべての知的システムに作用する力だと考えています。しかし、それが避けられないものとは思いません。外部の力が投資に対するリターンを変化させた場合(無人島での動物相の急減のような)、あなたは変化を余儀なくされるかもしれません。より可能性が高いのは、投資に対するリターンが時間の経過とともに低下し、何らかの恒常性効果を生み出すことです(採石場は次第に希少になり、漁に出る頻度が高まるなど)。
⟦CODE_0⟧
モードコラプスに陥るのを防ぐには、単に「それが気に入らない」と思うだけでいいのです。違うことをすればよいのです!バンドの例がそれを示しています。
残念ながら、これができるのはスラック(余裕)がある場合に限られます。もしあなたが今や釣りが全く下手で獲物もほとんど残っておらず、釣り方を学ぶために狩りを休む日さえ取れないという状況なら、毎日狩りに行かなければなりません。その場合、あなたは飢えてしまいます。レコードレーベルが今後 6 ヶ月以内にヒットアルバムを要求しているなら、IDM(インテリジェント・ダンス・ミュージック)を作る方法を学ぶ時間などないのです。
進化さえもこの影響から免れてはいません!高度に特化した動物(および植物)はどこでも一般的です—例えば赤アリの巣の中でしか成熟できない [ caterpillar ] や、単独性のミツバチの一種のみによって受粉される [ オフィリス・アピフェラ ] のような蘭など—これらは生態系のわずかな変化で絶滅する傾向があります。
したがってモードコラプスに警戒してください。あなたも免れてはいないのですから!
- 3 つのクラス、つまり猫、犬、カエルが 1:1:1 の比率で存在すると仮定しましょう。ここで、猫と犬の画像生成の間には何らかの共通する能力(例えば毛並みのテクスチャを生成するなど)を活用できるが、それらのいずれともカエルの間には共有できないと仮定します。最適な戦略は、その効率化の恩恵を利用し、カエルよりもわずかに猫や犬を描くのが上手くなり、さらに二次的には、カエルよりも毛むくじゃらな生き物(猫や犬)側に少しだけ誤差を偏らせることです。
あるいは、猫が本質的に犬よりも描きやすいと仮定しましょう。その場合の最適なポリシーは、猫ほどには達しすぎない程度に、犬に対して猫よりわずかに多くのリソースを割り当てることです。そして、最終的には猫側に誤差を偏らせるべきです。
全体的なパターンとして、"thing-space"(物事空間)において密度が高いものや、単純で生成が容易なものが優先される傾向があります。
原文を表示
“Mode collapse” is a few things. First it was an observation about how early image generating AIs often *collapsed* to producing just the *modal* output from their training distribution (something very common, like a house with a white picket fence and a tree in the garden). Then it was the observation that this effect seemed to occur extremely quickly when AIs were trained on AI-generated inputs. After that, it became the *copium du jour* of AI-is-hitting-a-wall folks for a while, who thought that the AI industry would ouroboros itself out of existence (and that there was, therefore, no need to confront any of the issues that smarter than human AIs might bring up). And then it was forgotten, because it turns out you *can* train on AI-generated inputs just fine, if you know what you’re doing.
It’s also the reason why grant-making organisations have such strong inertia, why all of your favourite band’s songs sound the same after the third album, and why you should specialise even if there are no gains from trade.
The Image Generator
Imagine an image generating AI, which gets something like this as input:
And suppose it’s being trained to fill in the blank section in the middle. Suppose it’s trained on 50:50 mixture of golden retrievers and tabby cats. For any given image, it first needs to decide whether to try and draw a retriever or a cat, and secondly how exactly the animal should look. The model has a limited amount of parameter space to spend, and it has to split that across three tasks:
- Guess whether the missing animal is a dog or a cat
- Produce an image of a dog
- Produce an image of a cat
We’ll ignore task (1) for now, and think about how the model might split its capacity between tasks (2) and (3). If cats and dogs are equally easy to draw, and if the model gets diminishing returns on capacity in both categories, and if the categories are equally common, then we should expect it to spend an equal amount of capacity on both tasks. Again, since the classes are symmetric, we should expect the predictions coming from task (1) to be 50:50 dogs:cats.
But what happens if we have a 70:30 ratio of dogs:cats? The first-order effect is that the model will allocate more resources to task (2) than task (3). That’s obvious, but there’s a second-order effect as well:
Imagine our model is in a situation where it thinks there’s a 50% chance the missing animal is a dog, and 50% chance it’s a cat (even after taking into account the fact that dogs are more common). It has the following options available to it: generate an excellent picture of a dog, or generate a mediocre picture of a cat. What should it do?
If it guesses the animal wrong, it’s screwed either way, but if it guesses right, it’s better off drawing a dog. Therefore the model should err on the side of drawing a dog! The distribution has been pushed towards the *modal* target.
If you train another generator on the outputs of the first, it will generate dogs *even more often*! Mode collapse.
This is a two-part process. Each *individual* step shifts the distribution slightly towards the mode, and each *successive* step locks in the shift of the previous step, and compounds it.
This generalises to some other situations as well, if you want to read the footnotes.
Grantmakers
Now suppose you’re a philanthropist hiring a grant-maker to distribute your money. You get a 70:30 mixture of global health proposals to animal welfare proposals.
You, naturally, hire someone who is slightly better at evaluating global health projects than they are at evaluating animal welfare projects. Your employee then awards grant money in a 75:25 ratio, since she can more easily pick the best global health proposals than she can the animal welfare ones.
In your next grant-making call, you decide to expand. Your employee brings on two new hires, and takes them through her process of evaluating grants, based on last year’s grants. They are trained on data in a 75:25 ratio, and become significantly better at evaluating global health proposals than animal welfare ones.
Your Favourite Band
By now you see the pattern right? The band writes its first album, 7 dreamy pop songs and 5 proggy rock songs. Now, since they’re better at writing the former, they do 9:3 on the next album and give up on rock entirely by the third.
But by the fifth album they’re bored of rock, and they decide to make something called “intelligent dance music” (which you’re not actually supposed to dance to, apparently)! The millions they made from touring the fourth album gave them enough time to take a break, and learn how to use [whatever weird gizmos electronic musicians use to make their music]. Slack to the rescue!
Division of Labour
People normally attribute the division of labour to the *gains from trade*. Trade is a part of it, but not all of it.
The ability to trade goods and services for money puts us in the same situation as the image classifier. Remember when our model thought there was an equal chance (50%) of “dog” or “cat” being the correct image to generate? In a modern economy, you are equally likely to be rewarded for doing a day’s work as an accountant or as a personal trainer, it’s just that the likelihood is ~100% instead of 50%.
Your skill at being an accountant can be thought of as a generative model of “a good day’s accounting work”. Likewise for your skill at being a personal trainer. Once you’ve done a few days’ work as an accountant, you’re feeding off your own generations (kinda) and your model of “a good day’s accounting work” gets better and better, leaving your model of “a good day’s personal training work” in the dust.
Note that this still works *without* trade: suppose you’re on a deserted island. If it’s sunny, you go hunting, if it’s cloudy, you go fishing. Each time you do an activity, you get better and better at it. If it’s sunny 3/4 of the time, you’ll get much better at hunting than fishing. Before long, you’ll be hunting when it’s *just a bit* clouded over, then when it’s *kinda* cloudy with patches of sun, and eventually you’ll be hunting every day. At least until you kill all the local fauna. Then you’re screwed.
Slack
I think mode collapse, generalised, is a force which acts on basically all intelligent systems over time. But I don’t think it’s inevitable. If an external force changes the returns to investment (like the fauna population crash in the deserted island), you might be forced to change. More likely, the returns to investment get lower over time, producing some homeostatic effect (quarry gradually becomes rarer, you go fishing more often).
You can also fight mode collapse it if you just *don’t like it*. You can just do (different) things! The band example showed this.
Unfortunately, you can only do this if you have access to slack. If you *need* to go hunting *every day* because you’re now *awful* at fishing and there’s *barely any quarry left and you can’t take a day off hunting to learn to fish!* Then you’ll starve. If the record label demands a hit album in the next six months, you don’t have time to learn to make IDM.
Even evolution isn’t immune to this! Highly specialised animals (and plants) are common everywhere—like the caterpillar that can only mature inside the nests of red ants, or those orchids that are pollinated exclusively by a single species of solitary bee—which tend to go extinct at the slightest ecological sneeze.
So beware mode collapse: for you are not immune!
- Suppose you have three classes: cats, dogs, and frogs, in a 1:1:1 ratio. Now suppose that some capacity can be shared between generating images of cats and dogs (e.g. generating fur textures) but not between either of those classes and frogs. The optimal strategy is to make use of that efficiency gain, and be slightly better at drawing cats and dogs than frogs, and then secondarily to err slightly on the side of the furry creatures, over the frogs.Or, suppose cats are just intrinsically easier to draw than dogs. The optimal policy would then be to allocate slightly more resources towards dogs than cats, but not so much that you’re as good at drawing dogs as you are at drawing cats. Then you should err towards cats.The overall pattern is: things which are dense in thing-space, or things which are simple and easy to generate, are favoured.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み