VideoPrism: 映像理解のための基盤的視覚エンコーダ
Google Researchは、動画分類・検索・キャプション生成・質問応答など幅広いタスクを単一の凍結モデルで処理できる基盤的視覚エンコーダ「VideoPrism」を発表し、大規模で多様なデータセットで事前学習することで汎用的な動画理解の実現に挑戦している。
キーポイント
VideoPrismの概要
Google Researchが開発した動画基盤モデル(ViFM)で、動画分類、ローカライゼーション、検索、キャプション生成、質問応答など多様な動画理解タスクを単一の凍結モデルで処理できる。
事前学習データの規模と多様性
3600万の高品質な動画-テキストペアと、5億8200万のノイズ付きまたは機械生成テキスト付き動画クリップという大規模で多様なデータセットで事前学習を行っている。
技術的アプローチの革新性
動画-テキストペアと動画自体の両方から学習するハイブリッドデータ向けの事前学習アプローチを提案し、既存の専門モデルに依存しない汎用的な動画理解を目指している。
実用性と性能
新しい動画理解課題への適応が非常に容易で、単一の凍結モデルを使用しながら最先端の性能を達成している。
影響分析・編集コメントを表示
影響分析
この研究は、動画理解における専門モデルへの依存を減らし、単一の汎用モデルによる包括的な分析を可能にする可能性がある。大量の動画データを効率的に分析・理解する基盤技術として、学術研究から実用アプリケーションまで幅広い分野に影響を与える重要な進展である。
編集コメント
動画理解の専門化から汎用化への転換点となる可能性を秘めた研究。大規模データと革新的な学習アプローチの組み合わせが、実用的な動画AIの新たな基準を設定しそうだ。
Google Research のシニア研究科学者である Long Zhao と、シニアスタッフソフトウェアエンジニアの Ting Liu によって投稿されました

ウェブ上には驚くほど多くの動画が存在し、人々が共有する日常の瞬間から歴史的な出来事、科学的観測に至るまで多様なコンテンツを網羅しており、それぞれが世界に関する独自の記録を含んでいます。適切なツールがあれば、研究者はこれらの動画を分析できるようになり、私たちが周囲の世界を理解する方法を変革することになるでしょう。
動画は静止画像よりもはるかに豊かで動的な視覚コンテンツを提供し、動きや変化、エンティティ間の動的な関係を捉えます。この複雑さ、および公開されている動画データの莫大な多様性を分析するには、従来の画像理解を超えたモデルが必要です。その結果、動画理解において最も高い性能を発揮するアプローチの多くは、特定のタスク向けに特別に設計された専門モデルに依存し続けています。最近では、VideoCLIP、InternVideo、VideoCoCa、UMT などの動画基盤モデル(ViFM: Video Foundation Models)を用いたこの分野で注目に値する進歩が見られています。しかし、動画データの圧倒的な多様性を扱う ViFM を構築することは依然として課題となっています。
汎用的なビデオ理解のための単一モデルを構築するという目標のもと、私たちは「VideoPrism: A Foundational Visual Encoder for Video Understanding」を紹介します。VideoPrism は、分類、位置特定、検索、キャプション生成、質問応答 (QA) など、幅広いビデオ理解タスクを処理するために設計された ViFM(Visual Foundation Model) です。私たちは事前学習データおよびモデル化戦略の両面で革新を提案します。VideoPrism を大規模で多様なデータセットで事前学習します:3600 万組の高品質なビデオ・テキストペアと、ノイズが含まれるか機械生成された並列テキストを持つ 5.82 億本のビデオクリップです。このハイブリッドデータ向けに設計された事前学習アプローチにより、ビデオ・テキストペアからだけでなく、ビデオそのものからも学習を行います。VideoPrism は新しいビデオ理解の課題に対して極めて容易に適応可能であり、単一の凍結モデル (frozen model) を使用して最先端のパフォーマンスを達成します。
VideoPrism は汎用的なビデオエンコーダーであり、単一の凍結モデルからビデオ表現を生成することで、分類、位置特定、検索、キャプション生成、質問応答を含む幅広いビデオ理解タスクにおいて最先端の結果を実現します。
事前学習データ
強力な ViFM を構築するには、LLM(大規模言語モデル)などの他の基盤モデルと同様に、トレーニングに使用する非常に大規模な動画コレクションが必要です。理想的には、事前学習データは世界中のすべての動画を代表するサンプルであるべきです。自然とこれらの動画の多くは完璧なキャプションや説明を持っていませんが、不完全なテキストであっても動画の意味内容に関する有用な情報を提供することができます。
モデルに最良の出発点を与えるために、私たちは複数の公開および非公開データセットを含む大規模な事前学習コーパスを構築しました。これには YT-Temporal-180M、InternVid、VideoCC、WTS-70M などがあります。これには、高品質なキャプション付きで慎重に選別された 3,600 万本の動画に加え、自動生成されたトランスクリプトなど、ノイズの多いテキストが混在するレベルの異なる追加の 5 億 8,200 万本のクリップが含まれています。私どもの知る限り、これは同種の最も大規模で多様な動画トレーニングコーパスです。
動画・テキスト事前学習データに関する統計。CLIP 類似度スコア(数値が高いほど良い)の大きなばらつきは、テキスト収集に使用された多様な方法の結果として生じた、私たちの事前学習データの多様なキャプション品質を示しています。
2段階トレーニング
VideoPrism モデルのアーキテクチャは、標準的な ビジョントランスフォーマー (ViT) に由来し、ViViT に従って空間情報と時間情報を逐次的に符号化するファクタライズされた設計を採用しています。私たちのトレーニングアプローチは、上記の高品質なビデオテキストデータとノイズの多いテキストを含むビデオデータの両方を活用します。まず、コントラスト学習(正のビデオテキストペア間の距離を最小化し、負のビデオテキストペア間の距離を最大化するアプローチ)を使用して、モデルに不完全な記述を含む自身のテキスト説明とビデオを一致させる方法を教えます。これにより、意味的な言語コンテンツを視覚的コンテンツにマッチングさせる基盤が構築されます。
ビデオテキストコントラストトレーニングの後、私たちはテキスト記述のないビデオのコレクションを活用します。ここでは、マスク付きビデオモデリングフレームワーク をベースに、いくつかの改良を加えてビデオ内のマスクされたパッチを予測します。第一段階で獲得した知識を効果的に活用するために、モデルは第一段階のモデルからのビデオレベルのグローバル埋め込みとトークンごとの埋め込みの両方を予測するように訓練されます。その後、モデルが近道(ショートカット)を学習しないように、予測されたトークンをランダムにシャッフルします。
VideoPrism の設定に独特なのは、2 つの相補的な事前学習信号を使用している点です。すなわち、テキスト記述と動画内の視覚コンテンツです。テキスト記述は物々がどのように見えるかに焦点を当てることが多い一方、動画コンテンツは動きや視覚的ダイナミクスに関する情報を提供します。これにより、VideoPrism は外観と運動の両方の理解を必要とするタスクにおいて卓越した性能を発揮します。
結果
私たちは、VideoPrism を動画分類およびローカライゼーション、動画テキスト検索、動画キャプション生成、質問応答、科学動画理解という 4 つの広範なカテゴリにわたる動画理解タスクに対して包括的に評価しました。その結果、VideoPrism は 33 の動画理解ベンチマークのうち 30 で最先端の性能を達成しました。これらはすべて、単一の凍結モデルに対する最小限の適応のみで実現されたものです。
VideoPrism と以前の最高性能を示すファウンデーションモデル(FMs)との比較。
分類およびローカライゼーション
私たちは、既存の大規模な動画理解ベンチマーク(VideoGLUE)を用いて、分類およびローカライゼーションタスクにおける VideoPrism の性能を評価しました。その結果、(1) VideoPrism は他のすべての最先端ファウンデーションモデル(FMs)を上回り、(2) 単一のモデルとして常に 2 位となるものは存在しないことが分かりました。これは、VideoPrism が異なる粒度のセマンティクスから外観や運動の手がかりに至るまで、多様な動画信号を一つのエンコーダに効果的に圧縮して学習したことを示しており、さまざまな動画ソースにおいても良好に機能することを意味します。
VideoPrism は、video understanding benchmark において、最先端のアプローチ(CLIP、VATT、InternVideo、および UMT を含む)を上回っています。このグラフでは、VideoPrism の相対的な改善を強調するために、前回の最良モデルとの絶対スコア差を示しています。Charades、ActivityNet、AVA、および AVA-K においては、評価指標として mean average precision#Mean_average_precision) (mAP) を使用しています。他のデータセットについては、top-1 accuracy を報告します。
LLM との組み合わせ
さらに、VideoPrism を LLM と組み合わせることで、さまざまな動画言語タスクを処理する能力を引き出すことを探求します。具体的には、テキストエンコーダー(LiT に従う)または言語デコーダー(PaLM-2 など)と組み合わせることで、VideoPrism は動画テキスト検索、動画キャプション生成、および動画 QA タスクに利用可能です。私たちは、広範かつ困難なビジョン言語ベンチマークセットにおいて、組み合わせたモデルを比較します。VideoPrism はほとんどのベンチマークで新たな最先端記録を樹立しています。視覚的な結果から、VideoPrism が動画内の複雑な動きや外観を理解できることがわかります(例えば、以下の視覚例では、窓にある回転する物体の異なる色を認識できます)。これらの結果は、VideoPrism が言語モデルと強く互換性があることを示しています。
VideoPrism は、複数の動画テキスト検索(上部)および動画キャプション生成・動画 QA(下部)ベンチマークにおいて、最先端手法(VideoCoCa、UMT、Flamingo など)と比較して競争力のある結果を達成しています。また、VideoPrism の相対的な改善度を強調するため、前モデルとの絶対スコア差も示します。MASRVTT における Recall@1、VATEX、および ActivityNet における結果、MSRVTT-Cap、VATEX-Cap、および YouCook2 における CIDEr スコア(CIDEr score)、MSRVTT-QA および MSVD-QA におけるトップ 1 精度、そして NExT-QA における WUPS インデックス(WUPS index)を報告します。
VideoPrism を用いて、テキストエンコーダーを備えた動画・テキスト検索(1 行目)と、言語デコーダーに適応させた動画 QA(2 行目および 3 行目)の定性的結果を示します。動画・テキスト検索の例では、青いバーは動画とテキストクエリ間の埋め込み類似度を示しています。
科学への応用
最後に、VideoPrism を、行動学、行動神経科学、生態学などの分野を含む、各領域の科学者が使用するデータセットでテストしました。これらのデータセットには通常、ドメイン固有の専門知識を要する注釈付けが必要であり、私たちはコミュニティによってオープンソース化された既存の科学データセットである Fly vs. Fly、CalMS21、ChimpACT、および KABR を活用しました。VideoPrism は単に極めて優れた性能を発揮するだけでなく、実際にはそれらのタスクのために特別に設計されたモデルをも上回ります。これは、VideoPrism のようなツールが、異なる分野における科学者の動画データ分析のあり方を変革する可能性を秘めていることを示唆しています。
VideoPrism は、さまざまな科学的ベンチマークにおいてドメイン専門家よりも優れた性能を示します。VideoPrism の相対的な改善度を強調するため、絶対スコア差を示しました。すべてのデータセットについて平均適合率(mAP)を報告しますが、KABR についてはクラス平均トップ-1 精度を使用しています。
結論
VideoPrism を通じて、私たちは汎用ビデオ理解のための新たな基準を確立する、強力かつ多用途なビデオエンコーダーを導入しました。大規模で多様な事前学習データの構築と革新的なモデリング手法の両方に注力したことは、広範な評価を通じて実証されました。VideoPrism は一貫して強力なベースラインを上回るだけでなく、その独自の汎化能力により、現実世界のさまざまなアプリケーションに取り組むのに適した位置づけとなっています。その潜在的な広範な利用可能性から、私たちはこの分野におけるさらなる責任ある研究を継続することにコミットしており、これは当社の AI プリンシプル に基づいて導かれています。VideoPrism が AI とビデオ分析の交差点において将来のブレークスルーへの道を開き、科学発見、教育、医療などのドメインで ViFMs(Video Foundation Models)の可能性を実現する手助けとなることを願っています。
謝辞
このブログ記事は、VideoPrism の全著者:Long Zhao, Nitesh B. Gundavarapu, Liangzhe Yuan, Hao Zhou, Shen Yan, Jennifer J. Sun, Luke Friedman, Rui Qian, Tobias Weyand, Yue Zhao, Rachel Hornung, Florian Schroff, Ming-Hsuan Yang, David A. Ross, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko, Ting Liu, Boqing Gong の名において作成されました。製品管理の取り組みに尽力いただいた David Hendon に心から感謝申し上げます。また、プログラムおよびリソース管理の取り組みに尽力いただいた Alex Siegman, Ramya Ganeshan, Victor Gomes にも深くお礼を申し上げます。さらに、Hassan Akbari, Sherry Ben, Yoni Ben-Meshulam, Chun-Te Chu, Sam Clearwater, Yin Cui, Ilya Figotin, Anja Hauth, Sergey
原文を表示
Posted by Long Zhao, Senior Research Scientist, and Ting Liu, Senior Staff Software Engineer, Google Research

An astounding number of videos are available on the Web, covering a variety of content from everyday moments people share to historical moments to scientific observations, each of which contains a unique record of the world. The right tools could help researchers analyze these videos, transforming how we understand the world around us.
Videos offer dynamic visual content far more rich than static images, capturing movement, changes, and dynamic relationships between entities. Analyzing this complexity, along with the immense diversity of publicly available video data, demands models that go beyond traditional image understanding. Consequently, many of the approaches that best perform on video understanding still rely on specialized models tailor-made for particular tasks. Recently, there has been exciting progress in this area using video foundation models (ViFMs), such as VideoCLIP, InternVideo, VideoCoCa, and UMT. However, building a ViFM that handles the sheer diversity of video data remains a challenge.
With the goal of building a single model for general-purpose video understanding, we introduce “VideoPrism: A Foundational Visual Encoder for Video Understanding”. VideoPrism is a ViFM designed to handle a wide spectrum of video understanding tasks, including classification, localization, retrieval, captioning, and question answering (QA). We propose innovations in both the pre-training data as well as the modeling strategy. We pre-train VideoPrism on a massive and diverse dataset: 36 million high-quality video-text pairs and 582 million video clips with noisy or machine-generated parallel text. Our pre-training approach is designed for this hybrid data, to learn both from video-text pairs and the videos themselves. VideoPrism is incredibly easy to adapt to new video understanding challenges, and achieves state-of-the-art performance using a single frozen model.
VideoPrism is a general-purpose video encoder that enables state-of-the-art results over a wide spectrum of video understanding tasks, including classification, localization, retrieval, captioning, and question answering, by producing video representations from a single frozen model.
Pre-training data
A powerful ViFM needs a very large collection of videos on which to train — similar to other foundation models (FMs), such as those for large language models (LLMs). Ideally, we would want the pre-training data to be a representative sample of all the videos in the world. While naturally most of these videos do not have perfect captions or descriptions, even imperfect text can provide useful information about the semantic content of the video.
To give our model the best possible starting point, we put together a massive pre-training corpus consisting of several public and private datasets, including YT-Temporal-180M, InternVid, VideoCC, WTS-70M, etc. This includes 36 million carefully selected videos with high-quality captions, along with an additional 582 million clips with varying levels of noisy text (like auto-generated transcripts). To our knowledge, this is the largest and most diverse video training corpus of its kind.
Statistics on the video-text pre-training data. The large variations of the CLIP similarity scores (the higher, the better) demonstrate the diverse caption quality of our pre-training data, which is a byproduct of the various ways used to harvest the text.
Two-stage training
The VideoPrism model architecture stems from the standard vision transformer (ViT) with a factorized design that sequentially encodes spatial and temporal information following ViViT. Our training approach leverages both the high-quality video-text data and the video data with noisy text mentioned above. To start, we use contrastive learning (an approach that minimizes the distance between positive video-text pairs while maximizing the distance between negative video-text pairs) to teach our model to match videos with their own text descriptions, including imperfect ones. This builds a foundation for matching semantic language content to visual content.
After video-text contrastive training, we leverage the collection of videos without text descriptions. Here, we build on the masked video modeling framework to predict masked patches in a video, with a few improvements. We train the model to predict both the video-level global embedding and token-wise embeddings from the first-stage model to effectively leverage the knowledge acquired in that stage. We then randomly shuffle the predicted tokens to prevent the model from learning shortcuts.
What is unique about VideoPrism’s setup is that we use two complementary pre-training signals: text descriptions and the visual content within a video. Text descriptions often focus on what things look like, while the video content provides information about movement and visual dynamics. This enables VideoPrism to excel in tasks that demand an understanding of both appearance and motion.
Results
We conduct extensive evaluation on VideoPrism across four broad categories of video understanding tasks, including video classification and localization, video-text retrieval, video captioning, question answering, and scientific video understanding. VideoPrism achieves state-of-the-art performance on 30 out of 33 video understanding benchmarks — all with minimal adaptation of a single, frozen model.
VideoPrism compared to the previous best-performing FMs.
Classification and localization
We evaluate VideoPrism on an existing large-scale video understanding benchmark (VideoGLUE) covering classification and localization tasks. We find that (1) VideoPrism outperforms all of the other state-of-the-art FMs, and (2) no other single model consistently came in second place. This tells us that VideoPrism has learned to effectively pack a variety of video signals into one encoder — from semantics at different granularities to appearance and motion cues — and it works well across a variety of video sources.
VideoPrism outperforms state-of-the-art approaches (including CLIP, VATT, InternVideo, and UMT) on the video understanding benchmark. In this plot, we show the absolute score differences compared with the previous best model to highlight the relative improvements of VideoPrism. On Charades, ActivityNet, AVA, and AVA-K, we use mean average precision#Mean_average_precision) (mAP) as the evaluation metric. On the other datasets, we report top-1 accuracy.
Combining with LLMs
We further explore combining VideoPrism with LLMs to unlock its ability to handle various video-language tasks. In particular, when paired with a text encoder (following LiT) or a language decoder (such as PaLM-2), VideoPrism can be utilized for video-text retrieval, video captioning, and video QA tasks. We compare the combined models on a broad and challenging set of vision-language benchmarks. VideoPrism sets the new state of the art on most benchmarks. From the visual results, we find that VideoPrism is capable of understanding complex motions and appearances in videos (e.g., the model can recognize the different colors of spinning objects on the window in the visual examples below). These results demonstrate that VideoPrism is strongly compatible with language models.
VideoPrism achieves competitive results compared with state-of-the-art approaches (including VideoCoCa, UMT and Flamingo) on multiple video-text retrieval (top) and video captioning and video QA (bottom) benchmarks. We also show the absolute score differences compared with the previous best model to highlight the relative improvements of VideoPrism. We report the Recall@1 on MASRVTT, VATEX, and ActivityNet, CIDEr score on MSRVTT-Cap, VATEX-Cap, and YouCook2, top-1 accuracy on MSRVTT-QA and MSVD-QA, and WUPS index on NExT-QA.
We show qualitative results using VideoPrism with a text encoder for video-text retrieval (first row) and adapted to a language decoder for video QA (second and third row). For video-text retrieval examples, the blue bars indicate the embedding similarities between the videos and the text queries.
Scientific applications
Finally, we test VideoPrism on datasets used by scientists across domains, including fields such as ethology, behavioral neuroscience, and ecology. These datasets typically require domain expertise to annotate, for which we leverage existing scientific datasets open-sourced by the community including Fly vs. Fly, CalMS21, ChimpACT, and KABR. VideoPrism not only performs exceptionally well, but actually surpasses models designed specifically for those tasks. This suggests tools like VideoPrism have the potential to transform how scientists analyze video data across different fields.
VideoPrism outperforms the domain experts on various scientific benchmarks. We show the absolute score differences to highlight the relative improvements of VideoPrism. We report mean average precision (mAP) for all datasets, except for KABR which uses class-averaged top-1 accuracy.
Conclusion
With VideoPrism, we introduce a powerful and versatile video encoder that sets a new standard for general-purpose video understanding. Our emphasis on both building a massive and varied pre-training dataset and innovative modeling techniques has been validated through our extensive evaluations. Not only does VideoPrism consistently outperform strong baselines, but its unique ability to generalize positions it well for tackling an array of real-world applications. Because of its potential broad use, we are committed to continuing further responsible research in this space, guided by our AI Principles. We hope VideoPrism paves the way for future breakthroughs at the intersection of AI and video analysis, helping to realize the potential of ViFMs across domains such as scientific discovery, education, and healthcare.
Acknowledgements
This blog post is made on behalf of all the VideoPrism authors: Long Zhao, Nitesh B. Gundavarapu, Liangzhe Yuan, Hao Zhou, Shen Yan, Jennifer J. Sun, Luke Friedman, Rui Qian, Tobias Weyand, Yue Zhao, Rachel Hornung, Florian Schroff, Ming-Hsuan Yang, David A. Ross, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko, Ting Liu, and Boqing Gong. We sincerely thank David Hendon for their product management efforts, and Alex Siegman, Ramya Ganeshan, and Victor Gomes for their program and resource management efforts. We also thank Hassan Akbari, Sherry Ben, Yoni Ben-Meshulam, Chun-Te Chu, Sam Clearwater, Yin Cui, Ilya Figotin, Anja Hauth, Sergey
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み