Hugging Face のあらゆるモデルをデプロイ・推論可能に
Together AI は、AI エージェント(Goose)と専用コンテナスキルを活用することで、Hugging Face の新モデルを数分でデプロイ・推論可能にする仕組みを実証し、開発者の参入障壁を劇的に下げた。
キーポイント
AI エージェントによる知識ギャップの解消
従来のコンテナ設定や環境構築に要する専門知識を、エージェントが自動で補完し、開発者が「何をしたいか」だけを記述すれば実装が可能になる。
Netflix 新モデルの即時デプロイ事例
Netflix が Hugging Face に公開したばかりの「void-model」を、エージェントと Together の専用コンテナインフラを用いてリリース当日に実行可能な状態にした。
開発プロセスの劇的短縮
モデル発見から実稼働までのラグが数日単位からゼロになり、CLI ツール「Goose」を介して単一セッションで完了するワークフローを確立した。
物理的相互作用の除去
このモデルはオブジェクトを削除するだけでなく、影や反射といった二次効果に加え、人物が削除された際に物が落下するような物理的な相互作用も自動的に処理します。
非同期推論とステータス確認
推論リクエストは非同期で実行されるため、即座にリクエストIDを含むレスポンスが返され、完了するまでそのステータスをポーリングする必要があります。
結果動画の取得方法
推論が完了すると出力にホストされた動画のURLが含まれるため、Together API キーを使用して cURL コマンドで直接ダウンロードできます。
専用コンテナ推論の利点
Together の DCI は、ユーザーがモデルを持ち込み、インフラを管理する負担なくプライベートな GPU 環境で実行できる完全マネージド型サービスです。
影響分析・編集コメントを表示
影響分析
この記事は、AI モデルの実装におけるボトルネックである「インフラ構築の専門性」を AI エージェントが解消する新たなパラダイムを示しています。これにより、小規模チームや個人開発者でも最新モデルを即座に検証・活用できる環境が整い、イノベーションのスピードがさらに加速すると予想されます。
編集コメント
モデルの発見から実装までの時間を短縮するだけでなく、専門知識の壁そのものを崩す点で画期的です。特に「速度」ではなく「アクセス」を強調している視点は、開発者コミュニティにとって非常に重要な示唆を含んでいます。
開発者の働き方において、実際に大きな変化が起きています。エージェントは、技術的に不可能だったからではなく、私たちがほとんど持っていなかったニッチな専門知識を必要としたためにこれまで手がつけられていなかった業務にアクセスする道を開きます。コンテナ化、推論サーバーの設定、モデル固有の環境構築:これらは、始める前に深い専門知識か、あるいは数時間の自己学習を要していたようなタスクの典型です。エージェントは、そうした前提となる知識のギャップを埋めるためのエレガントな手段を提供します。あなたが何を望むかを記述するだけで、エージェントがその知識のギャップを埋めてくれます。
それが鍵となります。スピードではありません。*アクセス*です。
Netflix が新モデルを発表した日
Netflix は最近、Hugging Face 上で void-model をリリースしました。発表されたその日の私の直感はいつも通りでした。「これを試してみたい」と思うことと、実際に*動かす*ことは別問題です。使用可能な環境に導入し、推論サーバーの設定を処理し、コンテナ構成を理解し、すべてを正しく接続する:これが通常、「これはクールだ」と「さて、実際に使い始める」の間に1〜2日の遅れを生じさせる部分です。
今回は、その遅れはほぼゼロでした。
Goose という CLI エージェントランナーと、Together の 専用コンテナスキル を組み合わせることで、「Netflix が新しいモデルをリリースした」という段階から、「そのための実行中のコンテナが手に入った」状態へ、たった 1 セッションで移行できました。エージェントは、Void モデルを Together の専用コンテナ推論(DCI: Dedicated Container Inference)インフラ上にデプロイするために必要なコードをすべて生成し、実質的にリリース当日に完了させました。
その出力はこちらにあります:github.com/blainekasten/together-void-model-container
私が実際にやったこと
セットアップ全体は 3 つのステップで完了しました。
ステップ 1: Together の専用コンテナスキルをインストールする。
npx skills add togethercomputer/skills

これにより、together-dedicated-containers スキル が取得され、Goose に対して Together のインフラと連携するために必要な特定の知識が提供されます。具体的には、推論サーバーの設定方法や、コンテナ仕様がどのようなものであるべきか、特定のモデルのためにすべての要素をどのように接続するかといった内容です。
ステップ 2: Goose セッションを開始し、1 つのプロンプトを実行する。
I want to deploy this model on togethers dedicated containers https://huggingface.co/netflix/void-model

以上です。たった一言で済みました。
ステップ 3: 落ち着いて動作を確認する。
そこから、エージェントは Hugging Face からモデルの詳細情報を取得し、そのモデルアーキテクチャに適した推論サーバーの構成を特定し、コンテナ設定ファイルを生成しました。そして、私が何かを検索したり、個別の手順でガイドする必要もなしに、完全で実行可能なセットアップを完成させました。
結果として得られたのは、blainekasten/together-void-model-container, というクリーンで動作するリポジトリです。これを使えば、誰でも Together インフラ上で void-model を実行できます。
ステップ 4: モデルを使用しよう!
エージェントがアプリケーションをデプロイした後、そのモデルに対して推論を実行し始めることができます。Together CLI には、簡単に推論テストを行うためのコマンドが用意されています。
tg beta jig submit --watch --payload '{
"video_url": "https://github.com/Netflix/void-model/raw/refs/heads/main/sample/lime/input_video.mp4",
"quadmask_url": "https://github.com/Netflix/void-model/raw/refs/heads/main/sample/lime/quadmask_0.mp4",
"prompt": "Empty park bench with fallen leaves on the ground",
"use_pass2": false
}'
このモデルは、動画からオブジェクトを除去するだけでなく、それらがシーンに引き起こすすべての相互作用も同時に除去します。影や反射といった二次的な効果だけでなく、人物が除去された際に物体が落下するような物理的な相互作用まで処理可能です。
このモデルを用いた推論呼び出しは非同期です。したがって、このリクエストの応答には、ポーリング可能な識別子を含むペイロードが返されます。応答は以下のようになります:
{
"model": "void-byoc",
"request_id": "019dc0f3-3c73-7a3f-b4b6-87ad06091180",
"status": "running",
"claimed_at": "2026-04-24T19:24:19.447457Z",
"created_at": "2026-04-24T19:24:19.444567Z",
"done_at": null,
"info": null,
"inputs": {
"prompt": "Empty park bench with fallen leaves on the ground",
"quadmask_url": "https://github.com/Netflix/void-model/raw/refs/heads/main/sample/lime/quadmask_0.mp4",
"use_pass2": false,
"video_url": "https://github.com/Netflix/void-model/raw/refs/heads/main/sample/lime/input_video.mp4"
},
"outputs": null,
"priority": 1,
"retries": null,
"warnings": null
}
推論が完了すると、出力にはホストされたビデオへの URL が含まれます。これを cURL と Together API キーを使用してダウンロードできます:
curl -L -O \
https://api.together.ai/v1/storage/019dc0f3-3c73-7a3f-b4b6-87ad06091180-tmpddmhtvar.mp4 \
--header "Authorization: Bearer $TOGETHER_API_KEY"
注釈:-L はストレージ URL の HTTP リダイレクトに従うために必要であり、-O は出力をローカルファイルに書き込みます。
なぜ Together Dedicated Container Inference (DCI) か
このストーリーが成立するのは、Together の Dedicated Container Inference(専用コンテナ推論)がこのようなモデルを実行するのに真に優れた場所だからです。その理由について説明する価値があります。
DCI は、Together が完全に管理するプライベートな GPU ベースの環境を提供し、お好みのモデルを実行できます。共有リソースを巡って争う必要も、ご自身でクラスターを設定する必要も、利用可能なモデルの固定されたメニューに縛られることもありません。モデルはあなたが持ち込み、インフラストラクチャは Together が担当します。
これは、迅速に進めたいチームにとって大きな意味を持ちます。Netflix から新しいモデルがリリースされたり、研究機関やオープンソースコミュニティから新モデルが登場したりした場合でも、すぐに本番環境で稼働させることが可能です。ご自身で GPU VM を起動する必要も、推論サーバーの依存関係に苦労する必要も、管理されたエンドポイントでサポートが追加されるのを待つ必要もありません。DCI は設計段階から柔軟性を備えており、モデルが存在する限り、デプロイが可能です。
コストモデルも実験を容易にします。基盤となる計算リソースの管理オーバーヘッドなしに、あなた専用のコンテナ上で使用した分だけ支払いを行います。これは、「時間ができたときに」と後回しにするのではなく、新しいモデルのテストに「はい」と答えることのできるようなセットアップです。
Together の DCI にご興味をお持ちの場合は、お問い合わせフォーム よりご連絡ください。
原文を表示
Something real is shifting in how developers work. Agents open up work that used to be off-limits, not because it was technically impossible, but because it required niche expertise most of us didn't have. Containerization, inference server configs, model-specific environment setup: these are the kinds of tasks that used to demand either deep expertise or hours of self-education before you could even get started. Agents allow for an elegant way to bridge those pre-requisite knowledge gaps. You describe what you want, and the agent fills in the knowledge gaps.
That's the unlock. Not speed. *Access.*
The day Netflix dropped a new model
Netflix recently released void-model on Hugging Face. The day it came out, my instinct was the same as always: I want to try this. But wanting to try a new model and actually *running* it are two different things. Getting it into a usable environment, handling the inference server setup, figuring out the container configuration, wiring it all up correctly: that's the part that usually introduces a day or two of lag between "this looks cool" and "okay I'm actually using it."
This time, that lag was basically zero.
Using Goose, a CLI agent runner, combined with Together's dedicated containers skill, I went from "Netflix just dropped a model" to "I have a running container for it" in a single session. The agent produced all the code needed to deploy void-model on Together's Dedicated Container Inference (DCI) infrastructure, essentially on release day.
The output lives here: github.com/blainekasten/together-void-model-container
Exactly what I did
The whole setup took three steps.
Step 1: Install the Together dedicated containers skill.
npx skills add togethercomputer/skills

That pulls in the together-dedicated-containers skill, which gives Goose the specific knowledge it needs to work with Together's infrastructure: how to configure the inference server, what the container spec should look like, how to wire everything up for a given model.
Step 2: Start a Goose session and run one prompt.
I want to deploy this model on togethers dedicated containers https://huggingface.co/netflix/void-model

That's it. One sentence.
Step 3: Sit back and watch it work.
From there, the agent pulled the model details from Hugging Face, figured out the right inference server configuration for the model architecture, generated the container config files, and produced a complete, runnable setup, all without me having to look anything up or guide it through individual steps.
The result: blainekasten/together-void-model-container, a clean, working repo anyone can use to run void-model on Together infrastructure.
Step 4: Use your model!
After the agent deploys your application you can start running inference against it. The Together CLIhas commands to easily test inference.
tg beta jig submit --watch --payload '{
"video_url": "https://github.com/Netflix/void-model/raw/refs/heads/main/sample/lime/input_video.mp4",
"quadmask_url": "https://github.com/Netflix/void-model/raw/refs/heads/main/sample/lime/quadmask_0.mp4",
"prompt": "Empty park bench with fallen leaves on the ground",
"use_pass2": false
}'
This model removes objects from videos along with all interactions they induce on the scene — not just secondary effects like shadows and reflections, but physical interactions like objects falling when a person is removed.
Our inference calls with this model are asynchronous. Therefore the response of this request will return a payload with an identifier we can poll for. The response looks like this:
{
"model": "void-byoc",
"request_id": "019dc0f3-3c73-7a3f-b4b6-87ad06091180",
"status": "running",
"claimed_at": "2026-04-24T19:24:19.447457Z",
"created_at": "2026-04-24T19:24:19.444567Z",
"done_at": null,
"info": null,
"inputs": {
"prompt": "Empty park bench with fallen leaves on the ground",
"quadmask_url": "https://github.com/Netflix/void-model/raw/refs/heads/main/sample/lime/quadmask_0.mp4",
"use_pass2": false,
"video_url": "https://github.com/Netflix/void-model/raw/refs/heads/main/sample/lime/input_video.mp4"
},
"outputs": null,
"priority": 1,
"retries": null,
"warnings": null
}
When the inference completes, the outputs includes a URL to the hosted video. We can download it using cURL and our Together API key:
curl -L -O \
https://api.together.ai/v1/storage/019dc0f3-3c73-7a3f-b4b6-87ad06091180-tmpddmhtvar.mp4 \
--header "Authorization: Bearer $TOGETHER_API_KEY"
Note: -L is required to follow the http redirect in the storage url and -O will write the output to a local file.
Why Together Dedicated Container Inference
This story only works because Together's Dedicated Container Inference (DCI) is genuinely a great place to run models like this, and it's worth explaining why.
DCI gives you a private, GPU-backed environment running the model of your choice, fully managed by Together. You're not fighting for shared resources, you're not configuring your own cluster, and you're not locked into a fixed menu of available models. You bring the model; Together handles the infrastructure.
This is a big deal for teams that want to move fast. When a new model drops from Netflix, from a research lab, from the open-source community, you can have it running in a production-grade environment almost immediately. No spinning up your own GPU VMs, no wrestling with inference server dependencies, no waiting for someone to add support for it in a managed endpoint. DCI is flexible by design: if the model exists, you can deploy it.
The cost model also makes it easy to experiment. You're paying for what you use, on a container that's yours, without the overhead of managing the underlying compute. That's the kind of setup that lets you say yes to testing new models instead of filing it away for "when I have time."
If you're interested in Together's DCI, reach out to us to get set up.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み