消えたクラッシュ:5 つのモデル経済における制御と創発
Hugging Face の記事は、単一のモデルによる経済シミュレーションから複数の異なるアーキテクチャを持つ小規模モデルを組み合わせる「五つのラボ」構成へ移行した実験の結果と、その失敗から得られたエージェントシステムの構築教訓を報告している。
キーポイント
実験設計の転換:単一モデルから分散型へ
以前の成功事例(単一モデルが5つの役割を担う)に対し、今回は OpenAI、NVIDIA、OpenBMB、および独自ファインチューニングしたモデルなど、異なるアーキテクチャを持つ 5 つのモデルがそれぞれ独立して行動する構成に変更された。
ホモジニアスな成功とヘテロジニアスの失敗
単一モデルでは「銀行強盗」のようなシナリオで自然に価格崩壊(emergent behavior)が発生したが、異なるモデルを混在させた再構築版ではこの現象が消失し、期待された市場挙動が再現されなかった。
小規模モデルによる経済の限界と課題
「小規模モデルで生きている経済を動かせる」という主張を検証するために異なるモデルを投入したが、アーキテクチャの違いが予測不能な結果を生み、単純な役割付与だけでは複雑な市場行動の創出が困難であることが示唆された。
創発現象の依存性
特定のエージェント集団で観察された行動や現象は、その集団を変更すると消滅する可能性があり、単一の成功事例を普遍的な性質とみなしてはならない。
市場制御のアプローチ転換
供給・需要のレバーを操作するだけでは不十分であり、信頼できる結果を得るには意思決定の downstream に位置する「決済の接合部(settlement seam)」で設計を行う必要がある。
シミュレータの限界と真実
高速な反復を可能にする安価なシミュレータは誤った解決策に安心感を与えるリスクがあり、モデルと実際のエージェントが矛盾する場合はエージェント側の挙動を信じるべきである。
影響分析・編集コメントを表示
影響分析
この記事は、AI エージェントを用いた複雑系シミュレーションの実験において、単一の強力なモデルに依存するアプローチの限界と、多様なアーキテクチャを組み合わせる際の難しさを浮き彫りにしています。特に「小規模モデルだけで自律的な経済が成立するか」という問いに対し、単純な役割付与では不十分であり、モデル間の相互作用やアーキテクチャの違いがシステム全体に大きな影響を与えることを示唆しており、今後のマルチエージェントシステムの設計において重要な示唆を与えます。
編集コメント
単一のモデルで完結するシミュレーションの成功例が、異なるモデルを混在させたことで崩れる様子は、マルチエージェントシステムの複雑さを如実に示しています。この「失敗」こそが、小規模モデルによる自律的な経済構築における重要な知見であり、今後の実験設計においてアーキテクチャの多様性をどう扱うかという深い問いを投げかけています。
*2026 年 6 月の「Build Small Hackathon」からのフィールドノート。第 3 回 installment(続編)。
このシリーズの最初のノートでは、私が誇りに思う物語を語りました。私は『ウッディ・レジェンド』という作品に、「オナ財宝への強奪」という題名をつけたのです。これは 1929 年の銀行預金者殺到(bank run)を森の民話として再解釈したものです。そして、蜂蜜を守っているフクロウがパニックを読み取り、資産の売却を開始する様子を見守りました。その結果、供給の洪水により蜂蜜価格は数ターンで 10 から 3 まで暴落しました。誰かがこれをスクリプト(プログラム)したわけではありません。再解釈された銀行預金者殺到によってエージェントが資産を売却し、その売却が価格を変動させたのです。これが私の全体の主張でした:小さなモデルに役割と予算を与えれば、市場の創発的行動は無料で発生するのです。
その後、私は森(シミュレーション環境)を再構築しました。すると暴落は再び起こらなくなりました。今回の installment はその理由についてです。なぜなら、この失敗から、エージェント上で構築することに関する教訓が、元の成功よりも多く得られたからです。
5 つのラボ、5 つのマインド
再構築では、1 つのモデルが 5 体の生物を動かす構成から、5 つの異なるラボの小規模モデルによる評議会へと変更しました。各モデルがそれぞれの生物を操ります:OpenAI のモデル、NVIDIA のモデル、OpenBMB のモデル、そして私が独自にファインチューニング(微調整)した半十億パラメータのモデルで 2 体を動かす構成です。この試みの目的は誠実さでした。「小規模モデルが生きた経済を動かせる」という主張があるなら、その主張の最も強力な形とは、1 つのモデルが 5 つの役割を演じるのではなく、異なるアーキテクチャを持つ 5 つが同じ市場で異なる選択を行うことです。
この多様性こそが、私がすでに書き上げていた物語を崩壊させたのです。
The price is whatever the agents decide to trade at
私はオペレーター側も再構築しました。プレイヤーは今や影から働く金融家です:商品に空売り(ショート)をかけ、真実の情報を囁いてその下落を仕掛け、伝説を吹き込み、価格が崩壊したときに利益を回収します。このループを画面上で理解しやすくするために、目的、スコアボード、ワンクリックでの初回取引を実装しました。約束を目に見える形にすることは、その約束が偽りであることを発見する最速の方法です。
なぜなら、私がハチミツに空売りをして「ウーナの蔵庫への殺到」を仕掛けたとき、ハチミツは下落しなかったからです。むしろ上昇しました。金庫が空であるという噂と作物が破滅するという情報を入手した評議会のモデルは、元の単一モデルのようにハチミツを投げ売りしませんでした。彼らはそれを買い占めたのです。安売りではなく、希少性です。空売りは損失を出し、ナレーターが皮肉も込めずに書いた見出しは「ハチミツへの賭けが裏目に出た」というものでした。
これは教訓であり、ゲームに特有のものではありません。エージェント経済において、基準価格とはあなたが回すダイヤルではありません。それは、エージェントたちが実際に取引することを選択した結果として残る痕跡です。最初の暴落は現実のものでしたが、それは一つのモデルの性質に依存するものであり、システムそのものの堅牢な特性ではありません。人口構成を変えれば、あなたが記録した創発的行動(emergent behavior)は単に消滅してしまうのです。
Three ways to fail
私は、教科書的な需給モデルをショックを与えるように、外部から経済を押し上げることで暴落を再現しようと、3 回のライブランを試みました。
まず、伝説を純粋な噂として扱い、エージェントに反応させました。彼らは売却しませんでした。次に、すべての生物の在庫に莫大な量の蜂蜜を投入し、供給過剰が需要を崩壊させて価格を引き下げると考えました。これは私のテストポリシーに対して見事に機能しました。私は高速オフライン実行のために使用するルールベースの代用品としてこのポリシーを使っていますが、そのテストポリシーは機械的な欲求閾値に従います:在庫を洪水のように増やせば、購入を停止します。しかし、実際のモデルはこの恩恵を無視し、自らの状況判断に基づいて取引を行いました。この作戦は再び失敗しました。第三に、ショートポジションの規模を拡大しましたが、それによって損失がさらに大きくなりました。
三つの記録、三つの損失:マイナス十五、マイナス二十六、マイナス二十七の石ころでした。しかし、全体としてこのシナリオこそがお金を稼ぐ方法であるという前提があったのです。そのパターンこそが警告でした。私が操作したすべてのレバーはエージェントの意思決定への入力であり、エージェントには拒否する自由がありました。機械的なショックで多様なモデル集団を操ることはできません。なぜなら、そのショックは彼らが依然として選択できる選択肢にバイアスをかけるだけだからです。
罠の中にあるもう一つの罠も、独立して名指しする価値があります。私の高速テストポリシーに対して機能した修正策が、私に誤った自信を与え、実環境での実行を失わせる結果となりました。安価な代用品と実際のエージェントが意見が分かれる場合、嘘をついているのは代用品の方です。そして、代用品の下でしか再現されない結果は、もはや結果ではありません。
入力を押すのではなく、継ぎ目を設計せよ
解決策は、エージェントを説得しようとするのをやめ、構築によってパニックを実在させることにありました。銀行取り付けは定義上、暴落です。したがって、現在の伝説では、市場がターン終了後に清算を終えた後、参照価格を直接書き換えることで、決済時にその良さを暴落させます。エージェントたちは好きなだけ取引しますが、その後、取り付けという事実が発生し、価格は半減し、それを先回りしたショートポジションが利益確定して決済されます。暴落はもはや私が望む行動ではありません。それは、下流の誰も異議を唱え得ない唯一の接合部において私が課す、意図された帰結です。
これはエマージェンス(創発)へのあきらめのように聞こえるかもしれませんが、実際はその正反対です。五つのモデルが取引し、噂を広げ、在庫を抱え込み、恨みを買って形成されるというエマージェント層は、木材に命を感じさせるすべての働きを依然として担っています。私が学んだのは、エマージェントな入力に対してより強く押し付けることで信頼できる結果が得られるわけではないということです。信頼できる結果を得るには、決定論的なオーバーライド(上書き)を行うべき正確な接合部を選び、それより上流のすべてを自由にしておくことです。テクスチャのためのエマージェンスと、起こらなければならない瞬間のための意図された制御。その技量は、どちらがどちらであるかを知り、接合部がどこにあるかを理解することにあります。
試行
メカニズム
決済時のハニー
ギャンビット損益
オリジナル、1 つのモデル
そのモデルは売却を選択
10 から 3
展示会での勝利
評議会、噂のみ
5 つのモデルが保有を選択
希少性により上昇
マイナス 15
評議会、在庫過剰
需要崩壊、政策テストのみ
ほとんど変動せず
マイナス 26 から 27
評議会、決済のオーバーライド
価格が清算後に急落し、法令により半減したことが確実となった
さらに 40
*表 1。4 つの世界にわたる同じ戦術。この暴落は一つのモデルでは創発的かつ脆弱であり、異質な評議会が存在する場合は見られず、決済の接合部で意図的に設計された場合にのみ確実に発生した。
私が得た教訓
三つのこと、そしてこれらすべてがゲームを超えて生き残る。
第一に、創発性は条件付きであり、永続的ではない。あるエージェント集団から観察し記録した行動は、何も変化していないにもかかわらず、その集団を変更すると消滅する可能性がある。一つの印象的な実行を、異なるキャストでも生き残るまで、性質ではなく単なる逸話として扱うべきだ。
第二に、市場のエージェントをその入力にショックを与えることで制御することはできない。供給と需要のレバーは、エージェントがまだ自由に選択できる選択肢にバイアスをもたらすだけであり、異質な評議会はしばしばそれを拒否する。確実な結果を得るには、すべての意思決定の下流である決済の接合部で設計を行う必要がある。より上流で強く押し付けることではない。
第三に、素早く反復できる安価なシミュレータは、間違った修正を過大評価しやすいものでもある。代理モデルと実際のエージェントが意見が分かれる場合、エージェントの側を信じるべきだ。
私は職業としてエージェントベースの市場モデルを構築しているが、木々に住む小動物たちよりも規模が大きく、リスクの高い状況でこれらのミスをすべて犯してきた。唯一のリスクが石の山と、私が最初にあまりにも自信を持って語った物語しかなかった場所で、再びそれらを犯すことが有益だったのだ。
小さなモデル、大きな冒険、そして自分で起こさなければならないクラッシュ。
*試してみてください:Space。
エージェントのトレースを開く:dataset。
原文を表示
*Field notes from the Build Small Hackathon, June 2026. Third installment.*
In the first of these notes I told a story I was proud of. I drew a Wood Legend
called the Run on Oona's Hoard, a 1929 bank run reskinned as woodland folklore, and
watched the owl who keeps the honey read the panic and start liquidating. The flood of
supply crashed the honey price from 10 down to 3 over the next few turns. Nobody
scripted it. A reskinned bank run made an agent dump an asset, and the dump moved a
price. That was the whole thesis: give a small model a role and a budget, and emergent
market behavior falls out for free.
Then I rebuilt the wood, and the crash stopped happening. This installment is about
why, because the failure taught me more about building on agents than the original
success did.
Five labs, five minds
The rebuild swapped one model running five creatures for a council of five different
labs' small models, each driving its own creature: an OpenAI model, an NVIDIA model,
an OpenBMB model, and a half-billion-parameter model I fine-tuned myself running two of
them. The point was honesty. If the claim is that small models can run a living
economy, the strongest version of that claim is five distinct architectures making
distinct choices in the same market, not one model wearing five hats.
That heterogeneity is exactly what broke the story I had already written up.
The price is whatever the agents decide to trade at
I rebuilt the operator side too. The player is now a financier who works from the
shadows: short a good, whisper a true tip to set up its fall, spring the legend, and
collect when the price craters. I made that loop legible on the screen, with an
objective, a scoreboard, and a one-click first trade. Making a promise visible is the
fastest way to discover the promise is false.
Because when I shorted honey and sprang the Run on Oona's Hoard, honey did not crash.
It rose. The council models, reading a rumor that the vault was empty and a tip that
the crop was doomed, did not dump honey the way the original single model had. They
hoarded it. Scarcity, not a fire sale. The short lost money, and the headline the
narrator wrote, with no irony, was that the honey gamble had soured.
This is the lesson, and it is not specific to a game. In an agent economy the reference
price is not a dial you turn. It is the residue of what the agents actually choose to
trade. The original crash was real, but it was contingent on one model's disposition,
not a robust property of the system. Change the population, and the emergent behavior
you documented can simply evaporate.
Three ways to fail
I spent three live runs trying to make the crash come back by pushing on the economy
from the outside, the way you would shock a textbook supply and demand model.
First I left the legend as a pure rumor and trusted the agents to react. They did not
sell. Second I dumped a windfall of honey into every creature's stores, reasoning that
a glut would collapse demand and pull the price down. That worked beautifully against
my test policy, a rule-based stand-in I use for fast offline runs, because the test
policy follows a mechanical wants-threshold: flood its inventory and it stops buying.
The live models ignored the windfall and traded on their own read of the room. The
gambit lost again. Third I sized the short up, which only made the loss larger.
Three recordings, three losses: minus fifteen, minus twenty-six, minus twenty-seven
pebbles, when the entire premise was that this was how you made money. The pattern was
the warning. Every lever I pulled was an input to the agents' decision, and the agents
were free to decline. You cannot steer a heterogeneous population of models with a
mechanical shock, because the shock only biases a choice they still get to make.
The trap inside the trap is worth naming on its own. The fix that worked against my
fast test policy gave me false confidence and cost me a live run to disprove. When the
cheap stand-in and the real agents disagree, the stand-in is the one lying, and any
result that only reproduces under the stand-in is not a result.
Author the seam, do not push the inputs
The resolution was to stop trying to convince the agents and to make the panic true by
construction. A bank run is, definitionally, a crash. So the legend now crashes its
good at settlement, after the market has finished clearing for the turn, by overwriting
the reference price directly. The agents trade all they like; then the run lands as a
fact, the price halves, and the short that front-ran it settles into profit. The crash
is no longer a behavior I hope for. It is an authored consequence I impose at the one
seam where nothing downstream can argue with it.
That sounds like giving up on emergence, and it is the opposite. The emergent layer,
five models trading, gossiping, hoarding, forming grudges, is still doing all the work
that makes the wood feel alive. What I learned is that you do not get reliable outcomes
by pushing harder on emergent inputs. You get them by choosing the precise seam at
which to author a deterministic override, and leaving everything upstream free. Emergence
for texture, authored control for the moments that have to happen. The craft is knowing
which is which, and where the seam sits.
Attempt
Mechanism
Honey at settlement
Gambit P&L
Original, one model
that model chose to dump
10 to 3
the showcase win
Council, rumor only
five models chose to hold
rose on scarcity
minus 15
Council, inventory glut
demand collapse, test policy only
barely moved
minus 26 to 27
Council, settlement override
price crashed post-clearing, by fiat
halved reliably
plus 40
*Table 1. The same gambit across four worlds. The crash was emergent and fragile under one model, absent under a heterogeneous council, and reliable only once it was authored at the settlement seam.*
What I took away
Three things, and all three outlive the game.
First, emergence is contingent, not durable. Behavior you observe and write up from one
population of agents can vanish when you change the population, even if nothing else
changes. Treat a single impressive run as an anecdote, not a property, until it survives
a different cast.
Second, you do not control a market of agents by shocking its inputs. Supply and demand
levers only bias choices the agents are still free to make, and a heterogeneous council
will frequently decline. Reliable outcomes come from authoring at a settlement seam,
downstream of every decision, not from pushing harder upstream.
Third, the cheap simulator that lets you iterate fast is also the one most likely to
flatter a wrong fix. When the stand-in and the real agents disagree, believe the agents.
I build agent-based market models for a living, and I have made every one of these
mistakes at larger scale and higher stakes than a wood full of woodland creatures. It
was useful to make them again somewhere the only thing at risk was a pile of pebbles
and a story I had told too confidently the first time.
Small models, big adventures, and a crash you have to author yourself.
*Try it: the Space.
Open agent traces: the dataset.*
関連記事
5 つのラボ、5 つの知性:小型モデルで多モデル金融ドラマを構築する(6 分読)
複数の研究機関が協力し、小型言語モデルを活用して多様な視点を持つ金融ドラマを共同開発した。この取り組みは、リソース制約下での高度な生成技術の可能性を示している。
5 つのラボ、5 つの思考:小規模モデルによるマルチモデル金融ドラマの構築
Hugging Face は、5 つの研究機関が協力し、小規模な AI モデルを活用して複数の視点を持つ金融ドラマを生成する手法を発表した。
ペルソナ・アトラス:著名な思考者の思考マップを可視化
Hugging Face が「Persona Atlas」を発表し、著名な人物の思考パターンや認知特性をマッピングする手法を公開した。これは AI の推論能力向上や人間理解の深化に寄与する研究である。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み