5 つのラボ、5 つの知性:小型モデルで多モデル金融ドラマを構築する(6 分読)
HuggingFace の Build Small Hackathon で発表された「Thousand Token Wood v2」は、異なるラボの小型モデルを各エージェントに割り当てることで多様性を生み出し、プレイヤーが金融家として介入する複雑な経済シミュレーションを実現した。
キーポイント
異種モデルによるエージェント構成
従来の単一モデルを多数使用する方法に対し、OpenAI、OpenBMB、NVIDIA、および独自ファインチューン版の Qwen など、異なる 4 つの小型モデルを各エージェントに割り当てて多様性を確保している。
プレイヤーの役割変化とゲーム性
単なる観察対象から、プレイヤーが「パトロン(影の金融家)」として金利貸付、市場操作、賄賂、同盟形成を行い、裁判官に追われるなど能動的に関与するシミュレーションへと進化している。
多様性がもたらす複雑な経済現象
各エージェントが異なる思考プロセス(モデル)を持つことで、予測不能な相互作用やバブル・崩壊といった複雑な経済現象が創発し、より現実的な市場ダイナミクスを再現している。
小規模モデルの活用戦略
小規模モデルは推論能力に不安定さがあるため、規模拡大ではなく構造化、プロンプト設計、および微調整によって信頼性を補完する。
多様なエージェント構成の価値
同質的なグループよりも異種混合のカウンシルの方が興味深く、サーバーレイヤーが確立されれば設定コストは追加されない。
機密情報のセキュリティと記憶管理
エージェントへの秘密情報はプロンプトの指示ではなくデータフロー内のファイアウォールで保護し、永続的メモリは要約されたバウンドされた形式でのみ参照することでコストを抑える。
影響分析・編集コメントを表示
影響分析
このアプローチは、大規模言語モデル(LLM)の性能競争だけでなく、異なる特性を持つ小型モデルを組み合わせることで複雑系をシミュレーションする新しい研究手法を示唆しています。特に、リソース制約のある環境下で多様なエージェント行動を創出する技術的実証として、マルチエージェントシステムや経済シミュレーション分野における重要な知見となります。
編集コメント
単一モデルの性能向上だけでなく、異種モデルの組み合わせによる「多様性の創出」が複雑系シミュレーションにおいて重要な要素となることを示す興味深い事例です。
*第二回 Build Small ハッカソンのフィールドレポート:新興経済の各エージェントが異なるラボの小規模モデルで動作し、プレイヤーが糸を操る資金提供者となる時に何が起きるか。
Thousand Token Wood の最初のバージョンは気象神のサンドボックスでした。1 つの微調整済み 0.5B モデル上で 5 匹の森の生き物が物品を取引し、あなたはショックで世界を刺激してバブルやクラッシュが現れる様子を観察しました。それは素敵な玩具でした。しかし、それはいわば「遊ぶ」ものではなく、「観る」ものでした。
v2 ではそれがあなたが操作するゲームへと再構築されました。あなたは森のパトロン、影の資金提供者です。利息をつけて貸し出しを行い、真実か偽りのどちらか分からないヒントを囁き、市場で空売りし、賄賂を渡し、同盟を仲介します。一方で、知事はあなたが知るべきではない情報を取引したとしてあなたを追跡します。生き物たちはあなたの扱い方を記憶しており、復讐の策略を巡らせます。そして最も大きな変化は裏側で起きています:すべての生き物が今や異なるラボの小規模モデルで思考しています。これがエンジニアリングレポートです。
多様性が製品であり、制約ではない
エージェント評議会を実行する明白な方法は、1 つのモデルに複数のプロンプトを適用することです。v2 では 4 つのモデルを実行しています:gpt-oss-20b(OpenAI)、MiniCPM3-4B(OpenBMB)、Nemotron-Mini-4B(NVIDIA)、そして私が独自にファインチューニングした Qwen 0.5B です。目的は新奇性そのもののためではありません。参加者が本質的に異なる場合、市場は興味深いものになります。異なるデータでトレーニングされ、異なるポストトレーニングを経た 4 つの研究所のモデルは、小規模モデルとしてはこれ以上ないほど多様です。フクロウは貯蔵の仕方が異なり、キツネは投機的なアプローチを取ります。評議会は台本ではなく、生きた議論なのです。
1 つのプラットフォーム上で 4 つの異なるモデルを並列稼働させることで浮き彫りになった真の教訓は、摩擦がほぼ完全にサービング層にあり、モデリング層にはないということです。
- 現在の vLLM(0.22.1)では、ロード時にカーネルを JIT コンパイルする必要があり、CUDA ツールキット(nvcc)が存在している必要があります。軽量なベースイメージには nvcc が同梱されていないため、CUDA 開発用イメージを基盤とするまで、4 つのモデルすべてが同じく「nvcc が見つからない」というエラーで失敗しました。これは gpt-oss の特有の挙動ではなく、vLLM のバージョンに共通する問題でした。1 つのイメージ修正ですべての問題が解決しました。
- gpt-oss-20b はネイティブの MXFP4 量子化(MXFP4 quantization)で動作し、24GB の L4 GPU に余裕を持って収まります。高価な GPU は不要です。また、回答を分析プレアンブルで囲むチャネル形式をサポートしているため、コンシューマー側は最終的なチャネルを抽出する必要があります。
- MiniCPM3 では trust_remote_code が必要でしたが、Nemotron はクリーンにロードされました。モデルごとの落とし穴であり、それぞれが 1 行の構成設定で済みます。
4 つの異種モデルを扱いやすくした要因は、v1 で単一モデルを扱いやすくしたのと同じ原初的な仕組み、すなわちすべてのモデル出力が流れる許容性の高い JSON パース・修復レイヤーです。異なるトークナイザーやフォーマット習慣はそれぞれ異なる変形を生み出しますが、パーサーは救済不能な部分を切り捨て、シミュレーションは決してクラッシュしません。このレイヤーを一度構築すれば、新しいモデルの追加はリファクタリングではなく設定エントリの追加で済みます。
情報非対称性にはファイアウォールが必要
v2 の劇的な核心は内部者からのヒントです。あなたは生物に*真実*(デッキが引き出す次の市場熱狂の実際の予測、あなたの真の優位性)か*偽物*(おとり)のどちらかのヒントを囁くことができます。真のヒントに基づいて行動し利益を得ると「ヒート」が上昇します。ある閾値を超えると裁判官が捜査を開始し、罰金、資産凍結、あるいは追放という結末を迎えます。
それが真のゲームとなるためには、助言の真実性が「生き物」から隠されなければなりません。彼らは噂のテキストは目にしますが、フラグ(秘密の合図)を決して見てはいけません。これは UI の小細工ではなくセキュリティ上の要件であり、小型モデルのエージェントにおいては特に鋭い問題となります:モデルが繰り返し返すものはすべて、プロンプトに含めた内容そのものだからです。したがって、隠されたフラグはプロンプトの外(プレイヤーの台帳上)に存在し、構築時に公開イベント記録から削除され、ナレーターが要約するのは公開イベントのみです。単一のテストが、ターンごとにすべての生き物の完全なプロンプトを検査し、禁止トークンが含まれていないか確認します。このテストは、テストスイートの中で最も重要なものです。エージェントに秘密情報を渡す場合、それが漏洩しないことを証明するテストが行われるまで、漏洩すると仮定してください。
制約されたメモリは安価なドラマを生む
生き物は永続的な関係性を保持します:パトロン(支援者)や互いに対する署名付きの感情です。これはイベントによって微調整されます(「あなたの作物を空売りした」「借金を返済した」「敵対者と同盟を結んだ」など)。敵対的になった生き物は融資を拒否し、より不利な条件で取引します;同盟関係にある生き物は互いの価格引き下げを止め、カルテルのように行動します。
罠はプロンプトの膨張です。生きた履歴は無限に成長し、小規模モデルはその中で溺れてしまいます。解決策は、決して履歴をプロンプトに含めないことです:モデルが目にするのは、数行で要約されたバケット化されたサマリー(「Oona に対して温かい感情を抱きつつも、パトロンのことは警戒している」など)だけであり、これは整数ベースのセンチメント分析から導き出され、最も強い数種類の感情に限定されます。注釈は追跡のために保持されますが、範囲を制限し、決して表示されることはありません。この行動バイアスは、一部は創発的(サマリーがモデルを誘導する)であり、一部は機械的(極めて敵対的な生物が決定論的に拒絶する)であるため、単なる希望ではなく、観測可能でテスト可能な事実となります。
実際に何が起こったか
完全な v2 メカニクスを実装した代表者評議会によるシミュレーション:
| レバー | 結果 |
|---|---|
| 評議会のモデル | 4 つのラボ、すべてが 32B の上限内で、Modal で稼働 |
| 微調整された 0.5B の信頼性 | 自己売買 0%、有効なオファー 100%(3B の教師モデルを上回る) |
| 真実ファイアウォール | どのプロンプトを検査しても、ヒントの隠しフラグが漏洩した事例はゼロ |
| インサイダー・ヒントによる優位性 | 真のヒントを事前に配置すれば正の P&L が確定するが、偽のヒントではそうならない |
| 調査への熱意 | 2 つのクリーンな疑わしい勝利が裁判官の基準ラインを超える |
| 破滅 | マージンコールとローンのデフォルト禁止により生物が追放され、数章後に復帰 |
*パトロンの役割、情報戦、人間関係、レバレッジをエンドツーエンドで行使した単一のシードされた実行。
小規模モデルでの構築における教訓
小規模モデルは信頼できるフォーマット生成器ですが、推論能力は不確実です。そのギャップを埋めるには、スケール拡大ではなく、構造化、プロンプト設計、そして小規模なファインチューニングによって達成します。均質な評議会よりも多様な評議会のほうが興味深く、サービング層が堅牢であれば構成コストは一度きりで済みます。エージェントに与えられる機密情報はファイアウォールの問題であり、そのファイアウォールはプロンプト内の指示ではなくデータフロー内に存在し、テストによって証明されるべきものです。また、永続的メモリは、プロンプトが常に有界な要約のみを参照する限りにおいて、エージェントに生きている感覚を持たせる最も安価な手段です。
小規模モデルでも大冒険が可能。評議会全体もトレースもすべてオープンです。
原文を表示
*A second Build Small Hackathon field report: what happens when each agent in an emergent economy runs on a different lab's small model, and the player becomes the financier pulling the strings.*
The first version of Thousand Token Wood was a weather-god sandbox: five woodland creatures on one fine-tuned 0.5B model traded goods, and you poked the world with shocks and watched bubbles and crashes emerge. It was a nice toy. It was also something you watched rather than played.
v2 rebuilt it into a game you operate. You are the Patron of the Wood, a shadow financier: you lend at interest, whisper tips that may be true or planted, short the market, bribe, and broker alliances, while a magistrate hunts you for trading on what you should not know. The creatures remember how you treated them and scheme back. And the biggest change is under the hood: every creature now thinks with a different lab's small model. This is the engineering report.
Heterogeneity is the product, not a constraint
The obvious way to run a council of agents is one model, many prompts. v2 runs four: gpt-oss-20b (OpenAI), MiniCPM3-4B (OpenBMB), Nemotron-Mini-4B (NVIDIA), and a fine-tuned Qwen 0.5B of my own. The point is not novelty for its own sake. A market is interesting when the participants genuinely differ, and four labs' models trained on different data with different post-training are about as different as small models get. The owl hoards differently than the fox speculates. The council is a live argument, not a script.
Standing four distinct models up on one platform surfaced the real lesson: the friction is almost entirely at the serving layer, not the modeling layer.
- Current vLLM (0.22.1) JIT-compiles kernels at load and needs the CUDA toolkit (nvcc) present. A lean base image does not ship it, so all four models failed identically with "could not find nvcc" until I based them on a CUDA devel image. This was not a gpt-oss quirk; it was universal to the vLLM version. One image fix unblocked everything.
- gpt-oss-20b runs in its native MXFP4 quantization and fits a 24GB L4 with room to spare; no high-end GPU needed. It also speaks a channel format that wraps the answer in an analysis preamble, so the consumer has to extract the final channel.
- MiniCPM3 needed trust_remote_code; Nemotron loaded clean. Per-model footguns, each a one-line config.
The thing that made four heterogeneous models tractable was the same primitive that made one model tractable in v1: a tolerant JSON parse-and-repair layer that every model's output flows through. Different tokenizers and formatting habits produce different malformations; the parser drops what it cannot salvage and the simulation never crashes. Build that layer once and adding a model is a config entry, not a refactor.
Information asymmetry needs a firewall
The dramatic core of v2 is the insider tip. You can whisper a tip to a creature that is *true* (a real forecast of the next market mania the deck will draw, your genuine edge) or *false* (bait). Acting on a true tip and profiting raises your heat; cross a threshold and the magistrate opens an investigation that ends in a fine, frozen assets, or exile.
For that to be a real game, the truth of a tip must be hidden from the creatures. They see the rumor text; they must never see the flag. This is a security property, not a UI nicety, and small-model agents make it sharp: everything the model could repeat back is whatever you put in its prompt. So the hidden flag lives off-prompt entirely (on the player's ledger), it is stripped from the public event record at construction, and the only thing the narrator ever summarizes is public events. A single test scans every creature's full prompt, every turn, for the banned tokens. That test is the most important one in the suite. When you give an agent secret information, assume it will leak unless a test proves it cannot.
Memory is cheap drama if you bound it
Creatures carry persistent relationships: a signed sentiment toward the Patron and toward each other, nudged by events (you shorted my crop, you repaid your loan, you allied me with a rival). A creature that turns hostile refuses your loans and quotes you worse; allied creatures stop undercutting each other and behave like a cartel.
The trap is prompt inflation. Raw history grows without bound and a small model drowns in it. The fix is to never put history in the prompt: the model sees a one-line bucketed summary ("you feel warmly toward Oona, wary of the Patron"), capped to the few strongest feelings, derived from integer sentiment. Notes are kept for traces but bounded and never shown. The behavioral bias is part emergent (the summary nudges the model) and part mechanical (a strongly hostile creature deterministically refuses), so it is observable and testable rather than a hope.
What actually happened
A representative council run, with the full v2 mechanics live:
Lever
Result
Models in the council
4 labs, all under the 32B cap, served on Modal
Fine-tuned 0.5B reliability
0% self-buys, 100% valid offers (beats its 3B teacher)
Truth firewall
0 leaks of a tip's hidden flag across every prompt scanned
Insider tip edge
a true-tip pre-position settles a positive P&L; a false tip does not
Heat to investigation
two clean suspicious wins cross the magistrate's line
Ruin
a margin call and a loan default banish a creature, who returns a chapter later
*A single seeded run exercising the Patron, the information war, relationships, and leverage end to end.*
Takeaways for building with small models
A small model is a reliable format generator and an unreliable reasoner; you close the gap with structure, prompting, and a small fine-tune, not with scale. A heterogeneous council is more interesting than a homogeneous one and costs you only config once the serving layer is solid. Secret information given to an agent is a firewall problem, and the firewall belongs in the data flow, proven by a test, not in a prompt instruction. And persistent memory is the cheapest way to make agents feel alive, as long as the prompt only ever sees a bounded summary.
Small models, big adventures. The whole council is open, and so are the traces.
関連記事
MosaicLeaks:研究エージェントは秘密を守れるか?
Hugging Face は、AI エージェントが機密情報を漏洩するリスクを検証する「MosaicLeaks」という評価フレームワークを発表した。
[AINews] 今日特に大きな出来事はありませんでした
Latent Space は、GLM 5.2 が依然として注目されていると指摘しつつ、AIE WF 2026 の通常チケットが月曜日に完売すると発表しました。同サイト購読者向けに限定割引を提供し、参加者には Warp や Datadog などからのスポンサークレジットも付与されます。
米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず
米国政府は国家安全保障上の懸念から、アマゾンの研究者らがガードレール回避手法を発見したとして、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の販売差し止めを命じた。サイバーセキュリティ研究者らはこの措置が危険だとする公開書簡に署名し、同社も他モデルでも同様の抜け道が存在すると指摘している。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み