AI エージェントとスキルを活用し、動画を即座に検索可能かつ実行可能なインテリジェンスへ変換
NVIDIA は、AI エージェントとスキルを活用して動画コンテンツから即座に検索可能で実行可能なインサイトを抽出する新機能を導入し、データ駆動型組織の意思決定プロセスを加速させることを発表した。
キーポイント
動画データの構造化と検索可能性の実現
従来の非構造化動画データを AI エージェントが解析し、意味のあるインサイトとして構造化することで、瞬時の検索と分析を可能にする仕組みを提供する。
AI エージェントとスキルの活用
汎用的な AI モデルではなく、特定のタスクに特化した「スキル」を持つエージェントが動画から情報を抽出・変換し、アクション可能な形式へ変換する。
リアルタイムインサイトの抽出
データ駆動型社会において、組織が持つ大量の動画記録から即座に重要な情報を引き出し、意思決定や業務改善に直結させることを目指す。
影響分析・編集コメントを表示
影響分析
この発表は、動画データを単なる記録媒体から、即座に活用可能な知的資産へと転換する重要なステップを示しています。特に「検索可能」かつ「実行可能」という要件を満たすことで、セキュリティ監視、トレーニング分析、顧客行動解析など、多岐にわたる産業分野でのリアルタイム意思決定支援への応用が加速すると予想されます。
編集コメント
動画解析の文脈で「スキル」という概念を強調している点が興味深く、単なる認識技術を超えた自律的なタスク実行への進化を示唆しています。ただし、具体的な実装詳細や既存ソリューションとの差別化点は、より深い技術記事での確認が必要です。
今日、データ駆動型の世界において、組織は重要な情報を捉えるためにますます動画に依存していますが、膨大な量の映像から意味のあるリアルタイムのインサイトを抽出し続けることは課題となっています。NVIDIA Metropolis Blueprint for video search and summarization (VSS) は、数百万のライブ動画ストリームや何時間もの録画動画を、即座に検索可能で実行可能なインテリジェンスへと変換することで、この障壁を克服します。
VSS は、膨大な量のライブ動画ストリームと記録データに対してリアルタイムで知覚し、推論し、行動する video analytics AI agents を構築するための参照アーキテクチャを提供します。これは、リアルタイムのビデオインテリジェンス、エージェント検索、自動化されたレポート作成のために、加速されたビジョンベースのマイクロサービス、vision-language models (VLMs)(ビジョン・ランゲージモデル)、large language models (LLMs)(大規模言語モデル)、および検索器を利用します。VSS は、企業が以前にも増して迅速に運用を監視し、トレンドを検出し、情報に基づいた意思決定を行うことを支援します。最新の VSS バージョンでは、新しいモジュール型デザイン、高度な融合検索機能、自律型エージェントとの統合を容易にする一連のスキルが追加されています。
本記事では、コーディングエージェントと組み合わせて新しい VSS スキル new VSS skills を使用し、VSS の展開を自動化してカスタムアプリケーションに統合する方法について学びます。その後、VSS 3 の背後にある技術について詳しく解説します。読み進めて、コーディングエージェントと VSS スキルを組み合わせて自律型 video analytics AI Agents を構築する方法を学んでください。
*また、5 月 13 日(水)午前 9 時(太平洋標準時)に開催されるライブイベント join us live on Wednesday, May 13, at 9 am PT にご参加いただき、VSS スキルを活用したビデオ分析 AI エージェントの構築方法も学んでいただけます。*
image*図 1. VSS アーキテクチャは、ビデオを分析するためのマイクロサービス、データベース、およびエージェントのセットで構成されています*
VSS スキルとコーディングエージェントを用いたビデオ AI エージェントの構築
過去には、開発者は動画管理、検索、要約などを行う VSS が提供する豊富なマイクロサービスセットを手動で構成、デプロイ、統合して動画分析アプリケーションを構築する必要がありました。今日では、VSS スキルで強化されたコーディングエージェントを使用して、単純なエージェント型チャットインターフェースを通じて VSS のデプロイ、使用、統合をすべて自動化することが可能になりました。
VSS スキルは VSS GitHub リポジトリにホストされており、エージェントスキル仕様 に従っているため、多様なエージェントで使用できます。これらのスキルを利用するための前提条件として、VSS を実行するように設定されたシステムと、Codex、Claude Code、OpenClaw、または NemoClaw などのスキルに互換性のあるエージェントが必要です。
まず、VSS スキルを Codex に追加し、それを使用して VSS の検索プロファイルを展開する方法の例を示します。次に、VSS スキルを OpenClaw に追加する方法を示し、これによりほぼあらゆるチャットインターフェースを通じて VSS デプロイメントと対話して、大量の動画を検索および分析できるようになります。
VSS 事前準備の設定
最初のステップは、VSS を実行するためのシステムを準備することです。最も簡単な方法は、NVIDIA Brev Launchable for VSS を使用することです。VSS ラウンチ可能ドキュメントページ にアクセスし、「Launch Blueprint」ボタンをクリックした後、「Deploy Launchable」をクリックしてください。
デプロイ後、Open Notebook ボタンをクリックし、*/video-search-and-summarization/scripts/deploy_vss_launchable.ipynb* ノートブックへ移動します。最初のセルに NGC から取得した NGC_CLI_API_KEY を貼り付け、 tear-down セクションを含むノートブック全体を実行してください。これにより VSS システムが完全にセットアップされ、その後コーディングエージェントからデプロイスキルを使用して VSS デプロイを管理できるようになります。
ノートブックの実行が完了したら、ホストシステムに Brev CLI をインストールし、VSCode を起動して、Figure 2 に示すように Launchable ページの「Using Brev CLI (SSH)」セクションに従って Brev インスタンスへリモート接続してください。
image*Figure 2. NVIDIA Brev Launchable page for using the Brev CLI ***
リモートアクセスが設定できたら、VSCode の拡張機能から Codex をインストールしてコーディングエージェントとして使用できます。
Codex を用いた VSS のデプロイ
VSCode では、拡張機能タブを使用して Codex を検索し、インストールします。インストール後、VSS スキルもインストールする必要があります。これは、Codex に VSS スキルの自己インストールを指示し、以下のプロンプトに示すように VSS の Github リポジトリの場所を提供することで実行できます:
~/video-search-and-summarization/skills/README.md および ~/video-search-and-summarization/skills/ 配下のすべての SKILL.md ファイルを読み込みます。カタログ内の各スキルについて、シェルまたはチャットセッションから呼び出せるように、このホスト用にインストールしてください。ホストの標準的なスキルのディレクトリを使用します:
Claude Code: ~/.claude/skills/<name>/
Codex: ~/.codex/skills/<name>/
agentskills.io のユニバーサルパスに従うホスト: ~/.agents/skills/<name>/
各スキルフォルダはコピーするのではなくシンボリックリンクを作成してください。これにより、ここで git pull を実行するとすべてのインストールが最新の状態に保たれます。すでにインストールされており、このチェックアウトを指しているスキスはスキップしてください。完了したら、登録したスキルとその使用ディレクトリを一覧表示してください。
以下の Figure 3 は、エージェントが VSS スキルにアクセスできることを確認してどのように応答するかを示しています。
image*Figure 3: Codex’s response to verify VSS skill availability*
エージェントが VSS スキルで読み込まれたら、さまざまな VSS コンポーネントとプロファイルのデプロイに使用できます。その後、Codex を使用して新しい VSS Search プロファイルをデプロイできます。これは以下の Figure 4 に示されています。
image*Figure 4: Codex successfully deploys the VSS search profile*
Codex はその後、デプロイメントを計画し、必要な環境変数を設定して、VSS 検索機能を有効にするために必要なすべてのコンテナを展開します。ここから、Codex を使用して VSS と対話し、動画を検索し続けるか、または OpenClaw を VSS スキルと併用する方法を見るために次のセクションへ進むことができます。
VSS および OpenClaw を使用した動画検索
検索プロファイルが実行されている状態で、OpenClaw をインストールおよび設定して、VSS を使用して動画を分析する自律型エージェントとして機能させることができます。
ここでは、Brev システム上で OpenClaw をセットアップし、強力な自律型エージェントが何ができるかを確認する方法を示します。VSCode ターミナルから Brev インスタンスに接続し、推奨されるインストーラスクリプトを使用して、標準的な OpenClaw のインストール手順 に従ってください。
初期設定を完了した後、図 5 に示すようなエージェントを孵化させ(Figure 5)、VSS を使用して動画分析アプリケーションを構築するエージェントとして機能させるための文脈を与えます。
image*図 5: VSS に関する文脈で OpenClaw を孵化させる*
初期セットアップ後、OpenClaw に VSS スキルを提供する必要があります。これを行う最も簡単な方法は、手動でスキルを OpenClaw のワークスペースにコピーすることです。
mkdir ~/.openclaw/workspace/skills
cp -r ~/video-search-and-summarization/skills/* ~/.openclaw/workspace/skills
さて、ターミナルで openclaw dashboard コマンドを実行して OpenClaw UI を開きます。これにより、OpenClaw UI にアクセスするためのクリック可能なリンクが返されます。一度開くと、OpenClaw が VSS Skills へのアクセス権限を持っていることを確認できます。
image*図 6: OpenClaw による VSS Skills の検証*
これで、OpenClaw に先ほどのセクションでデプロイした VSS Search プロファイルを使用して、大量のビデオデータを分析させることができます。この例では、倉庫で撮影された 10 分間の動画 3 つへのパスを指定し、はしごの安全な使用状況について分析させる必要があります。OpenClaw に、動画内のはしごの使用事例をすべて検索機能で見つけ出し、作業者がヘルメットと安全ベストを着用しているかを確認させます。そのために、以下のプロンプトを使用します。
倉庫にある一連のビデオが ~/warehouse_videos にあります。作業者がはしごに登っている事例を見つけ、かつヘルメットと安全ベストを着用していることを確認する必要があります。デプロイされた VSS Search プロファイルを使ってこれを実行できますか?
このプロンプトを受け取ると、OpenClaw は裏側でタスクを完了するために必要なスキルおよび関連するツール呼び出しを特定し始めます。
OpenClaw は VSS スキルを活用して、動画ファイルを VIOS にアップロードし、埋め込みマイクロサービスを通じて動画をインデックス化して検索可能なインデックスを生成した後、VSS の融合検索機能を使用して、ヘルメットと安全ベストを着用した作業員がはしごに登っている映像クリップを検索します。
image*図 7: VSS 検索プロファイルを使用して、安全なはしごの使用を確認した OpenClaw の結果*
完了すると、OpenClaw は動画全体で確認されたはしごの使用状況に関する簡潔なレポートと、動画からのスクリーンショットを返します。
このセクションでは、デプロイに Codex を使用し、VSS スキルを用いた動画分析に OpenClaw を活用するという、単なる 1 つの簡単な例を紹介しました。エージェントに VSS スキルを追加することで、動画データから貴重な洞察を得て、VSS を用いて新しいアプリケーションを構築する無限の可能性が広がります。
次に、VSS の豊富な動画分析機能を支える技術についてさらに深く掘り下げてみましょう。
より賢い動画:アラートから検索へ
大規模な動画検索は、現代の情報検索において最も挑戦的なフロンティアの一つです。ユーザーのクエリは本質的に複雑で曖昧であり、単一の視覚的埋め込み内で完全な意味意図を捉えることは根本的に不十分です。特に、オブジェクトやイベントが単純なベクトル表現に抵抗する多層的な属性を持つ場合、その傾向は顕著になります。
膨大なスケールにおいて、数百万時間の映像の中から特定の瞬間を見つけることは、真の「干し草の山の中の針」問題となり、モノリスな埋め込み空間における最近傍探索は、精度と再現率の両方が急速に低下します。
*Video 1: 自然言語を用いた属性、イベント、アクションによるエージェント型ビデオ検索*
これらの制限に対処するには、2 つの中核機能に基づいたより洗練された検索アーキテクチャが必要です:
- 多様な埋め込みの抽出と取得を組み合わせ、関連性フィルタリングと意味的な重複排除を行うこと。
- エージェントによる推論によって駆動される検索オーケストレーション; 複雑なクエリを実行可能なサブクエリに分解し、各ステップで推論に基づく検索戦略を適用し、反復的な検証と反省ループを実行して結果を段階的に洗練させること。
検索アーキテクチャはまず、RTVI-CV と埋め込みおよび RTVI-埋め込みマイクロサービスを使用して映像を取り込み、特徴量を抽出します。その後、VSS エージェントはこの特徴量データとビジョン対応ツールを用いて、ビデオに対して深層的かつ反復的な検索を実行し、計画を立てて結果を取得することで、ビデオのタイムライン上の特定のオブジェクトやイベントを特定します。
image*図 8. 多埋め込み検索のプロセス*
モジュラーアーキテクチャによる高い柔軟性とパフォーマンス
VSS は、docker-compose ベースのモジュラー型開発者プロファイルシステムを中心に設計されています。ベースエージェントは 5 分以内にデプロイ可能で、必要に応じて追加ワークフローがその上にレイヤーされます。
WorkflowProfileCore の機能
Base / Q&A ベース:短尺クリップに対する VLM(Vision Language Model)ベースの Q&A およびレポート生成
Alert Verification アラート(検証):CV パイプライン + ビヘイビアアナリティクス + VLM による検証
Real-Time VLM Alerts アラート(VLM):ライブストリーム上での継続的な VLM 異常検出
Search 検索:動画アーカイブ全体にわたるエージェント型マルチエンベディング検索
Video Summarization LVS:長時間録画のチャンク化された要約
- 表 1. 利用可能な VSS 開発者プロファイル *
各ワークフローは、ハードウェアおよびパフォーマンス要件を満たすため、さまざまな構成で複数の種類の GPU でサポートされています。
次に、各種ワークフローと構成に関するベンチマークを見てみましょう。
エージェント型検索ワークフローは、最大同時入力ストリーム数、入力ストリームの取り込みにかかる時間、検索結果を受信するための検索レイテンシによって特徴付けられます。以下の表 2 は、H100 および NVIDIA RTX PRO 6000 の単一 GPU 構成におけるこれらの指標を示しています。
GPU**最大同時ストリーム数 最大取り込み遅延 (秒)検索遅延 (秒)
1x H100 330.0792.24
1x RTX PRO 6000510.1011.87
*表 2: エージェント型検索ワークフローの主要パフォーマンス指標*
アラート検証ワークフローにおいては、最大同時ストリーム数と検証に要する遅延が測定されます。以下の表 3 は、RT-DETR を検出器として、 Cosmos Reason 2 を VLM(Vision Language Model)検証器として使用し、平均して 1 分あたり 1 つのアラートイベントが発生するストリーム上で測定したこれらの指標を示しています。
GPU最大同時ストリーム数検証遅延 (秒)
1x DGX Spark 1x AGX Thor 140.89
1x H1001471.01
1x RTX PRO 6000870.82
*表 3: アラート検証ワークフローの主要パフォーマンス指標*
長時間動画要約マイクロサービスは、数時間にわたる映像 footage の要約を迅速に生成します。以下の図は、特定の GPU 構成で 1 時間の動画を要約するのにかかる時間を示しています。LVS(Long Video Summarization)マイクロサービスを複数の GPU にスケールさせることで、要約時間を大幅に短縮できます。
image*図 9: さまざまな GPU トポロジー上で長時間動画要約マイクロサービスを使用して 1 時間の動画を要約するまでの時間。*
VSS スキルでのスタート
VSS スキルを使用すると、開発者は自然言語を用いて映像を検索可能で意味のあるデータに変換できます。これにより、インサイトの発見や要約の生成、より賢いアプリケーションの構築が容易になります。
VSS をさらに深く掘り下げるには、ドキュメントをご覧ください。すべての VSS スキルは Github で確認できます。
技術的なご質問については、フォーラム をご覧ください。
原文を表示
In today’s data-driven world, organizations increasingly rely on video to capture critical information, yet extracting meaningful, real-time insights from massive amounts of footage remains a challenge. NVIDIA Metropolis Blueprint for video search and summarization (VSS) overcomes this hurdle by transforming millions of live video streams or hours of recorded video into instantly searchable, actionable intelligence.
VSS brings a reference architecture for building video analytics AI agents that perceive, reason, and act in real-time on massive volumes of live video streams and recorded data. It uses accelerated vision-based microservices, vision-language models (VLMs), large language models (LLMs), and retrievers for real-time video intelligence, agentic search, and automated reporting. VSS helps enterprises monitor operations, detect trends, and make informed decisions faster than ever. The latest version of VSS brings a new modular design, advanced fusion search capability and a set of skills to easily integrate with autonomous agents.
In this post you will learn how to use the new VSS skills with coding agents to automate VSS deployment and integration into custom applications, followed by a deep dive into the technology behind VSS 3. Continue reading to learn how to use VSS skills with coding agents for building autonomous video analytics AI Agents.
*You can alsojoin us live on Wednesday, May 13, at 9 am PT, to learn how to build a video analytics AI agent with VSS skills. *

Build a video AI agent with VSS skills and coding agents
In the past, developers had to manually configure, deploy and integrate the rich set of microservices VSS provides for video management, search, summarization and more to build video analytic applications. Today, it’s possible to use coding agents augmented with VSS skills to automate the deployment, usage and integration of VSS all through a simple agentic chat interface.
VSS skills are hosted on the VSS GitHub Repository and follow theagent skills specification, allowing them to be used with a wide variety of agents. A prerequisite to utilizing these skills is to have a system that is set up to run VSS and an agent compatible with skills such as Codex, Claude Code, OpenClaw, or NemoClaw.
First we will show an example of how to add VSS skills to Codex and use it to deploy the VSS search profile. Then, we will show how to add VSS skills to OpenClaw, which will allow us to interact with our VSS deployment through nearly any chat interface to search and analyze large volumes of video.
Setting up the VSS pre-requisites
The first step is to prepare a system to run VSS. The easiest way to do this is to use the NVIDIA Brev Launchable for VSS. Go to the VSS launchable documentation page and click the “Launch Blueprint” button and then “Deploy Launchable.”
Once deployed click the Open Notebook button and navigate to the */video-search-and-summarization/scripts/deploy_vss_launchable.ipynb* notebook. Paste in your NGC_CLI_API_KEY from NGC in the first cell and then execute the entire notebook including the tear-down section. This will ensure the system is fully set up for VSS and then you can make use of the deployment skill to manage our VSS deployment from our coding agent.
Once the notebook has run to completion, install the Brev CLI on your host system, launch VSCode and remotely connect to your Brev Instance following the Using Brev CLI (SSH) section from your Launchable page as shown in Figure 2, below.

Once you have a remote access configured, you can install the Codex through the VSCode extension to use as the coding agent.
Deploying VSS with Codex
In VSCode you will use the extensions tab to search for and install Codex. Once installed you need to install the VSS skills. You can do this by telling Codex to self install the VSS skills and providing it the location of our VSS Github repository as shown in the following prompt:
Read ~/video-search-and-summarization/skills/README.md and every SKILL.md file under ~/video-search-and-summarization/skills/. For each skill in the catalog, install it for this host so I can invoke it from a shell or chat session. Use the host's standard skills directory:
Claude Code: ~/.claude/skills/<name>/
Codex: ~/.codex/skills/<name>/
Hosts that follow the agentskills.io universal path: ~/.agents/skills/<name>/
Symlink each skill folder rather than copying it so a git pull here keeps every install up to date. Skip skills that are already installed and pointing at this checkout. When you're done, list the skills you registered and which directory you used.
Figure 3, below, shows how the agent will respond, verifying that it can access the VSS skills.

Once your agent is loaded with the VSS skills, you can use it to deploy the various VSS components and profiles. Then you can use Codex to deploy the new VSS Search profile, as shown in Figure 4, below.

Codex will then plan out the deployment, configure the necessary environment variables and deploy all the containers needed to enable the VSS Search capability. From here, you can continue using Codex to interact with VSS for searching videos or continue to the next section to see how to also use OpenClaw with VSS skills.
Searching videos with VSS and OpenClaw
With the search profile running you can install and configure OpenClaw to be an autonomous agent for analyzing videos using VSS.
We will show you how to set up OpenClaw on the Brev system to see what a powerful autonomous agent can do. You will follow the standard OpenClaw installation instructions from the VSCode terminal connected to the Brev instance and use the recommended installer script.
After running through the initial configuration, you can hatch our agent shown in Figure 5, below, and give it some context that it will be an agent for building video analytic applications using VSS.

After the initial setup, you need to provide OpenClaw with the VSS Skills. The easiest way to do this is to manually copy the skills into the OpenClaw workspace.
mkdir ~/.openclaw/workspace/skills
cp -r ~/video-search-and-summarization/skills/* ~/.openclaw/workspace/skills
Now, open up the OpenClaw UI by running the openclaw dashboard command in the terminal, which will return a clickable link to access the OpenClaw UI. Once opened, you can verify that OpenClaw has access to the VSS Skills.

Now you can tell OpenClaw to use the VSS search profile deployed in the previous section to start analyzing large volumes of video data. For this example, you will provide a path to three 10-minute videos captured in a warehouse that need to be analyzed for safe ladder usage. You want OpenClaw to use the search capability to find all instances of ladder usage in the videos and verify the worker is wearing a hardhat and safety vest. For this, you will use the following prompt:
I have a set of warehouse videos located at ~/warehouse_videos. I need to find any instances of a worker climbing a ladder and verify they are wearing a hardhat and safety vest. Can you do this with the VSS Search profile that is deployed?
Once prompted, OpenClaw will start working behind the scenes to figure out the necessary skills and associated tool calls it needs to make to complete the task.
OpenClaw makes use of the VSS skills to upload your video files to VIOS, ingest the videos through the embedding microservices to generate searchable indexes and then use the fusion search capability in VSS to find the video clips where a worker wearing a hardhat and safety vest is climbing a ladder.

Once it’s done, OpenClaw returns a concise report of all ladder usage seen across the videos as well as screenshots from the videos.
This section covered just one simple example of using Codex for deployment and OpenClaw for video analysis with VSS skills. By augmenting agents with VSS Skills, they are given endless possibilities to gain valuable insights into video data and build new applications with VSS.
Now you can dive deeper into the technology that powers the rich set of video analysis capabilities in VSS 3.
Smarter video: From alerts to search
Large-scale video search remains one of the most challenging frontiers in modern information retrieval. User queries are inherently complex and ambiguous—capturing full semantic intent within a single visual embedding is fundamentally insufficient, particularly when objects and events carry multi-layered attributes that resist simple vector representation.
At massive scale, locating a specific moment across millions of hours of footage becomes a true “needle in a haystack” problem, where nearest-neighbor search over a monolithic embedding space quickly degrades in both precision and recall.
Addressing these limitations requires a more sophisticated search architecture built on two core capabilities:
- Multi-type embedding extraction and retrieval, combined with relevance filtering and semantic deduplication.
- Search orchestration driven by agentic reasoning; decomposing complex queries into tractable sub-queries, applying reasoning-based retrieval strategies at each step, and running iterative verification and reflection loops to progressively refine results.
The search architecture first uses RTVI-CV with embedding and RTVI-embedding microservices to ingest video and extract features. The VSS agent then uses this feature data and vision-aware tools to perform a deep, iterative search on video, creating a plan and retrieving results to locate specific objects or events in the video timeline.

Modular architecture brings high flexibility and performance
VSS is designed around a docker-compose based modular developer profile system: A base agent deploys in under five minutes, and additional workflows are layered on top as needed.
Each workflow is supported on several types of GPUs in various configurations to meet your hardware and performance needs.
Let’s look at some benchmarks for the various workflows and configurations.
The agentic search workflow can be characterized by its maximum concurrent input streams, the time it takes to ingest the incoming streams and the retrieval latency to receive a search result. Table 2, below, shows these metrics on single GPU configurations for H100 and NVIDIA RTX PRO 6000.
For the alert verification workflow, the maximum number of concurrent streams is measured along with the latency for the verification to take place. Table 3, below, shows these metrics measured using RT-DETR as the detector, Cosmos Reason 2 as the VLM verifier operating on streams with an average of 1 alert event per minute.
The long video summarization microservice rapidly produces summaries on hours of video footage. Figure below, shows the time it takes for a given GPU configuration to summarize an hour long video. Scaling the LVS microservice to multiple GPUs can greatly decrease the summarization time.

Get started with VSS skills
VSS skills enable developers to transform video into searchable, meaningful data using natural language—making it easier to uncover insights, generate summaries, and build smarter applications.
To dive deeper into VSS, see thedocumentation. Explore all VSS skills in Github.
For technical questions, visit our forum.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み