How an Agent Built a 3D Paris Gallery by Chaining Two Hugging Face Spaces｜エージェントが2つのHugging Face Spaceを連鎖させて3Dのパリ美術館を構築した方法 | AIニュース最前線

[記事一覧に戻る](https://huggingface.co/blog) - マルチメディアにおけるブロック経済の到来 - agents.md">すべての Space は、agents.md を通じてブロックとなる - 具体的な事例：パリ記念碑 → スプラット - なぜこれが重要なのか - あなたも試してみよう *エージェントが 2 つの Hugging Face Space を連携させることで、3D パリ美術館を構築しました。* 私はコーディングエージェントに、パリの記念碑を 3D ガウススプラットとして紹介する美しいウェブサイトを構築するように依頼しました。画像生成ツールを開いたことはありませんし、3D 再構成ツールに触れたこともありません。エージェントは、2 つの Hugging Face Space を直接呼び出すことですべてのアセット（画像**および**3D スプラット）を生成し、それらをシネマティックなビューアーに接続しました。 こちらがその結果です。静的な Space としてライブ公開されています： 👉 **[mishig/monuments-de-paris](https://huggingface.co/spaces/mishig/monuments-de-paris)** この投稿では、それがどのように可能になったのか、そしてなぜこれが今後のマルチメディアソフトウェアの構築方法の予兆だと私が考えるのかについて解説します。 ## マルチメディアにおけるブロック経済の到来 ミッチェル・ハシモットは最近、彼が「[ブロック経済](https://mitchellh.com/writing/building-block-economy)」と呼ぶ転換点を記述しました。ソフトウェアへの最も効果的な道筋はもはや磨き上げられたモノリスではなく、他者（ますます*エージェント*によって）が組み立てられるよう、小型で文書化されたコンポーネントであるというものです。 彼の重要な観察点は以下の通りです。AI はゼロからすべてを構築する点では問題ありませんが、**実証済みの部品をつなぎ合わせる**ことにおいては非常に優れています。 その論文の多くはコードライブラリを通じて語られてきました。しかし、同じ力がマルチメディア AI にも押し寄せています。最先端の画像モデル、動画モデル、TTS モデル、3D 再構築モデルを使用する際の難しさは、モデル自体にあるのではなく、統合にあります：SDK、重み（weights）、GPU、入力フォーマット、ポーリングです。もし各モデルが文書化され、呼び出し可能なブロックであったなら、エージェントは npm パッケージを結合するようにそれらを接着できます。 まさにそれが、Hugging Face Spaces が静かに成し遂げたことです。 ## エージェント.md を通じて、すべての Space がビルディングブロックとなる The Hub は数千の最先端モデル（その多くがオープンウェイト）をホストしており、ほとんどが対話型の Spaces としてデプロイされています。現在では、すべての Gradio Space は、エージェントに対して呼び出し方を正確に示すプレーンテキストの [agents.md](https://huggingface.co/docs/hub/en/spaces-agents) を公開しています。 curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md は必要なすべてを一度に返します：スキーマ URL、呼び出しおよびポーリングテンプレート、ファイルのアップロード方法、そして認証ヒントです。 API スキーマ: GET .../gradio_api/info 呼び出しエンドポイント: POST .../gradio_api/call/v2/{endpoint} {"param_name": value, ...} ポーリング結果: GET .../gradio_api/call/{endpoint}/{event_id} ファイル入力: POST .../gradio_api/upload -F "files=@file.ext" 認証： Bearer $HF_TOKEN クライアントライブラリも不要、ハードコードされた統合も不要。エージェントはこれを読み取り、Space をエンドツーエンドで駆動できます。 [HF_TOKEN](https://huggingface.co/settings/tokens) を設定すれば、あとは進むだけです。 真の鍵となるのは**チェーン化**です：ある Space の出力が次の Space の入力となります。プロンプト → 画像 → 3D。これがこのギャラリーを支える全体のパイプラインです。 ## 具体的な例：パリ記念碑 → スプラット エージェントは 2 つの Space を連鎖させました： - **Image**: `ideogram-ai/ideogram4` が各記念碑を、クリーンで黒背景の「標本」ショットに変換しました（エッフェル塔は台座の上にある小さなジオラマとして）。プロンプトを入力し、画像を出力します。 - **Splat**: `VAST-AI/TripoSplat` が各単一画像から 3D ガウシアン スプラット (.ply) を再構築しました。画像を入力し、3D を出力します。 生成された画像 再構築されたスプラット エージェントが生成した 6 つのソース画像はすべて黒背景に切り抜かれ、単一画像からの 3D 再構築の準備ができています： そこから、エージェントは「つなぎ合わせ」作業も担当しました。TripoSplat の出力が Y 軸下向きで反転していることに気づき、それを正しく立て直しました。各記念碑を自動的にフレームに収め、.ply ファイルを .ksplat に圧縮して（約 3 分の 1 のサイズになり、高速読み込みが可能）、スクロールで切り替え、ドラッグで回転できる UI を備えた Three.js ビューアを構築し、全体を静的な Space としてデプロイしました。人間が行った入力は味覚レベルのものだけでした：「ズームアウトして」「オベリスクをスプラットに適した別のものに置き換えて」「トランジションが長すぎる」などです。 これらのステップのいくつかは、**エージェントが現実に反応する**ものでした。広いガラス製のピラミッドが不恰好に崩れ落ち、細いオベリスクは鈍く見える。単一視点からの再構築では背面を推測することになります。これはまさに、「アウトソーシングされた R&D（研究開発）と高速な反復」というループであり、ビルディングブロック経済が予測するものそのものです。ただし、この場合の R&D は会話という形をとっていました。 ## なぜこれが重要なのか - モデルがコンポーザブルになります。異なる組織から提供される SOTA（State-of-the-Art：最先端）のスプラットモデルと画像モデルを、統合コードゼロで連鎖させることができます。ハブのオープンウェイトカタログは、呼び出し可能なマルチメディアプリミティブのライブラリへと変貌します。 - エージェントは、文書化されておりアクセスしやすいものを好みます。agents.md を持つことで Space が極めて容易にアクセス可能となり、エージェントは手動でセットアップが必要なモデルよりも、その Space を選択するようになります。これは Hashimoto 氏がオープンソースライブラリに対して指摘したのと同じダイナミクスです。 - 障壁であったのは統合であり、それはほぼ消滅しました。「プロンプトを回転する 3D モニュメントに変換する」という行為は、かつてはプロジェクトそのものでしたが、ここではパイプライン内の一つのステップに過ぎません。 ## 実際に試してみましょう ご自身のエージェントを Space の agents.md に指向させ、実行させてみてください： # image generation curl https://huggingface.co/spaces/ideogram-ai/ideogram4/agents.md # single-image to 3D gaussian splat curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md いずれかのリンクをコーディングエージェント（Claude Code など）に貼り付け、HF_TOKEN を設定して何か構築するように指示してください。このギャラリーのための完全かつ再現可能なパイプライン、そしてそれら 2 つの agents.md エンドポイントにアクセスするスクリプトは、[Space リポジトリ](https://huggingface.co/spaces/mishig/monuments-de-paris/tree/main) にあります。 ビルディングブロックはすでに Hub のそこにあります。エージェントは既に接着する方法を知っています。

エージェントが2つのHugging Face Spaceを連鎖させて3Dのパリ美術館を構築した方法

背景や根拠まで確認しますか？

関連記事