AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業このサイトについてRSS
© 2026 ainew.jp
お問い合わせ特定商取引法に基づく表記
ニュース一覧元記事を開く
AWS Machine Learning Blog·2026年6月26日 01:40·約15分で読める

Amazon SageMaker AI 上で SeedVR2 をデプロイして超解像を実現する方法

#Video Super-Resolution#SeedVR2#Amazon SageMaker#Generative Video#ByteDance
TL;DR

AWS は ByteDance のオープンソース動画修復モデル「SeedVR2」を SageMaker AI で実装可能にし、アーカイブ映像のアップスケールや生成 AI 動画の高解像度化という実用的なユースケースを提供した。

AI深層分析2026年6月26日 02:04
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
5
革新性10%
3

キーポイント

1

既存課題と SeedVR2 の導入

低解像度の既存ビデオライブラリを現代のディスプレイ向けにアップスケールする際、従来の手法では計算資源や画質面で限界があったが、SeedVR2 を SageMaker で利用することでスケーラブルな解決策を提供する。

2

主要ユースケース:アーカイブと生成 AI

歴史的映像の保存・デジタル化やストリーミングサービスのコンテンツ強化に加え、計算コストの高い高解像度生成を避けるため、低解像度の生成 AI 動画を後処理で高品質化するワークフローが強調される。

3

SageMaker による実装と効率化

Managed インフラを活用することで、コスト効率とパフォーマンスを維持しつつ大規模なビデオコレクションの処理が可能となり、フレーム単位の解析による詳細復元を実現する。

影響分析・編集コメントを表示

影響分析

この記事は、生成 AI や動画処理におけるコストと品質のトレードオフを解決する具体的な実装例を示しており、企業やクリエイターが既存資産を最大限活用するための重要な技術的指針となる。特に、高解像度生成の計算負荷を回避しつつ高画質を実現する「2 段階ワークフロー」は、今後の AI ビデオ制作業界における標準的なプラクティスへと進化させる可能性を秘めている。

編集コメント

生成 AI の普及に伴い、低解像度で生成されたコンテンツを如何に高品質化するかが重要な課題となっていますが、この実装例はその解決策として非常に現実的で即戦力となるアプローチです。

ディスプレイ技術が高解像度へと進化するにつれ、多くの組織が共通の課題に直面しています。既存のビデオライブラリには低解像度のコンテンツが含まれており、最新のハイデフィニションディスプレイ上でピクセル化したりぼやけたりして表示されてしまうのです。

従来のビデオアップスケーリング手法は、計算資源の限界、品質の一貫性の欠如、大規模なビデオコレクションを処理する際の拡張性問題にしばしば直面します。また、多くの既存ソリューションには、細部の復元、エッジのシャープ化、ノイズアーティファクトの低減に必要な技術が不足しています。

SeedVR2 は、ByteDance の Seed チームが開発したオープンソースのビデオ修復モデルです。Amazon SageMaker AI 上で SeedVR2 を実行することで、アップスケーリングやビデオ品質向上(スーパーリゾリューション super resolution)のための拡張性のあるソリューションが提供され、これらの課題に対処できます。このアプローチはフレームごとに視覚情報を分析して細部を復元し、ビデオ品質を改善するため、高解像度コンテンツの再購入は不要です。SageMaker の管理インフラストラクチャを利用すれば、コスト効率とパフォーマンスを維持しながら、大規模なビデオコレクションを処理することが可能です。

本稿では、SageMaker AI で SeedVR2 を使用してビデオのアップスケーリングを実装する方法を示します。ソリューションアーキテクチャを解説し、デプロイ手順を追跡し、品質向上と処理効率において達成可能なパフォーマンス比較を紹介することで、その改善点を明確にします。本稿を終える頃には、このスーパーリゾリューション(超解像)ソリューションを実装するために必要な実践的な知識が得られるでしょう。

ユースケース

ビデオアップスケーリングは、業界全体で多くの応用があります。アーカイブ機関、博物館、放送局は、歴史的な映像を高解像度で復元・デジタル化することができます。これにより文化遺産が保存され、現代の視聴サービスに適した形になります。ストリーミングサービスは、古いテレビ番組や映画を 4K またはそれ以上の解像度にアップスケーリングできます。これにより、膨大なコンテンツライブラリ全体のリマスターを必要とせずに、加入者の体験を向上させることができます。

注目すべき価値ある応用例の一つに、生成モデルの計算集約性により解像度が低いことが多い AI 生成動画のアップスケーリングがあります。これらの合成動画に専用のアップスケーリングアルゴリズムを適用することで、クリエイターは計算リソース効率の良いラフドラフトを、磨き上げられた高解像度の最終製品へと変換できます。これにより、直接高解像度で生成する場合よりも遥かに高い処理要件を回避できます。その結果、低解像度でアイデアの迅速なプロトタイピングを行い、その後それを強化するという 2 段階のワークフローが実現します。このアプローチは、現代のディスプレイ規格に適合する視覚品質を維持しつつ、AI 動画制作に必要な時間と計算リソースを削減します。

ソリューションアーキテクチャ

本ソリューションは、AWS Cloud Development Kit (AWS CDK) を用いたインフラストラクチャー・アズ・コードで定義された 3 層の AWS アーキテクチャを採用しています。SecurityStack は、Amazon Virtual Private Cloud (Amazon VPC) の設定、最小権限アクセスを持つ AWS Identity and Access Management (AWS IAM) ロール、および AWS Key Management Service (AWS KMS) 暗号化キーの確立により基盤を構築します。このスタックは、VPC エンドポイントを通じて AWS サービスへの安全なアクセスを維持しつつ、ビデオ処理ワークロードをプライベートサブネット内に隔離するセキュリティ境界を作成します。

image
image

DataStack は、入力および出力の動画ファイルに対してサーバーサイド暗号化を適用した Amazon Simple Storage Service (Amazon S3) バケットを用いてストレージ層を実装しています。入力用バケットには生動画が保存され、出力用バケットにはアップスケーリングされた動画が保存されます。両方のバケットでは、オブジェクト管理のためにバージョニングとライフサイクルポリシーが実装されています。

コアとなる処理パイプラインは、Amazon SageMaker AI の 処理ジョブ を起動する AWS Lambda 関数を通じて実行されます。このジョブでは、カスタム Docker コンテナを実行する ml.g5.4xlarge インスタンスが使用されます。このコンテナには ComfyUI 向けの SeedVR2 モデル がパッケージ化されており、解像度やバッチ処理のための設定可能なパラメータを備えた高品質な動画アップスケーリングを提供します。本ソリューションでは、SeedVR2 を実行する推論フレームワークとして ComfyUI を採用しており、これによりハードウェア最適化された実行が可能となります。

処理ワークフローは、動画を入力 S3 バケットにアップロードすると開始されます。その後、Lambda 関数が SageMaker の処理ジョブを作成し、カスタムコンテナを Amazon Elastic Container Registry (Amazon ECR) からプルしてマウントし、GPU 対応インフラ上で動画のアップスケーリングアルゴリズムを実行します。処理された動画は出力バケットに保存されます。Amazon CloudWatch は、パイプライン全体での監視とトラブルシューティングのためのログを提供します。

SeedVR2 データフロー

以下の図は、データがソリューション内をどのように流れるかを示しています。

image
image

処理ワークフローは、生動画を S3 入力バケットにアップロードすると開始されます。その後、Lambda 関数をトリガーして、一意のタイムスタンプ名を持つ SageMaker の処理ジョブを作成します。SageMaker は ml.g5.4xlarge GPU インスタンスを開始し、SeedVR2 コンテナを Amazon ECR からプルして S3 入力バケットをマウントし、処理対象の動画ファイルを読み込みます。SeedVR2 モデルは GPU 上で動画をアップスケーリングし、処理された出力を S3 出力バケットに書き込みます。その後、インスタンスは終了します。アップスケーリングされた動画は、出力バケットから取得できます。

デプロイ手順

前提条件

開始する前に、以下のツールとリソースがインストールされ、設定されていることを確認してください:

  • Python 3.13+
  • AWS Command Line Interface (AWS CLI)
  • Docker
  • AWS Cloud Development Kit (AWS CDK) v2
  • 適切な権限を持つ AWS アカウント
  • SageMaker プロセッシングジョブにおける ml.g5.4xlarge のサービスクォータリクエスト

ステップ 1: プロジェクトのクローンと環境設定

リポジトリをクローンし、環境構成ファイルを作成します:

git clone https://github.com/aws-samples/sample-sagemaker-video-upscaler.git

cd sample-sagemaker-video-upscaler

cp .env.example .env

AWS アカウントの詳細で.env ファイルを編集してください:

AWS_ACCOUNT_ID=

REGION=

ステップ 2: 依存関係のインストールと AWS CDK のブートストラップ

高速な Python パッケージマネージャーである uv を使用して依存関係をインストールし、仮想環境を作成します:

curl -LsSf https://astral.sh/uv/install.sh | sh

uv venv --python 3.13 and source .venv/bin/activate

uv sync

AWS アカウントで AWS CDK をブートストラップします。これは一度きりの設定ステップです。権限エラーが発生した場合は、aws sts get-caller-identity コマンドを実行して認証情報を確認してください。

cdk bootstrap aws:///

ステップ 3: Amazon ECR への認証

docker を us-east-1 の AWS Deep Learning Container Amazon ECR リジストリと認証します。これは、デプロイ先のリージョンに関わらず、ローカルの Docker ビルド時に PyTorch ベースイメージをプルするために必要です。Docker ビルドが失敗した場合は、Amazon ECR の認証を確認し、docker system prune -a を実行してキャッシュされたイメージをクリアしてください。

aws ecr get-login-password --region us-east-1 | \

docker login --username AWS --password-stdin \

763104351884.dkr.ecr.us-east-1.amazonaws.com

Step 4: Deploy the infrastructure

Deploy your entire infrastructure with a single command. This creates your VPC, S3 buckets, Lambda function, SageMaker processing job definition, and Amazon ECR repository. Deployment takes 15–20 minutes to complete, depending on your compute and network speed.

cdk deploy --all --require-approval never

Step 5: Test the pipeline

Upload a test video to the input S3 bucket:

aws s3 cp your-video.mp4 s3://--datastack-input-bucket/

Trigger the Lambda function to start the processing job:

aws lambda invoke \

--function-name SeedVrStack-ProcessingJob-Trigger-SeedVr-trigger-Lambda \

--payload '{}' \

output.json

Monitor the process through Amazon CloudWatch Logs for Lambda execution, the SageMaker console for processing job status, and the S3 console for your enhanced video output. If the processing job fails, review the CloudWatch logs under /aws/sagemaker/ProcessingJobs. Also verify that the output bucket contains your upscaled video file.

Tuning performance

You can customize your processing parameters in config/config.yaml:

InstanceType: ml.g5.4xlarge # Minimum

resolution: "540" # Output quality

batch_size: "81" # Processing efficiency

model: "seedvr2_ema_3b_fp8_e4m3fn.safetensors"

モデルの完全リストについては、Hugging Face ウェブサイトの SeedVR2 ComfyUI models をご覧ください。

コスト管理

ml.g5.4xlarge インスタンスのコストは、執筆時点ではリージョンによって異なりますが、時間あたり約 1.20 ドルです。インスタンスの稼働時間に対してのみ課金されます。S3 ストレージのコストは、ほとんどのユースケースで最小限です。

スケーリングと今後の展望

このパイプラインは、単一動画からバッチ処理までを自動的に処理します。より大規模なデータセットの場合は、create_processing_job boto3 コール内の S3DataDistributionType を ShardedByS3Key に変更することで、複数の並列インスタンスの使用を検討してください。詳細については、ProcessingS3Input API リファレンス をご覧ください。

SeedVR2 の仕組み

SeedVR2 は、拡散モデルと生成敵対ネットワーク(GANs)を「拡散敵対事後学習(APT)」と呼ばれるプロセスを通じて統合した動画修復モデルです。その中核となる技術は、AI を用いて欠落する詳細情報を再構築するものであり、160 億パラメータの GAN アーキテクチャに基づいて構築されています。このシステムは、2 つ段階からなる APT プロセスを通じて動作します。このプロセスには、64 ステップを 1 ステップに圧縮する漸進的蒸留と、実際の高解像度動画から学習する実データトレーニングが含まれます。アーキテクチャでは、適応型ウィンドウアテンションのために Swin Transformer が使用され、相対的ペアリング GAN(RpGAN)損失、R1/R2 正則化、および特徴マッチング損失など、複数のセーフガードが組み込まれています。通常の GAN と同様に、RpGAN もグローバルミニマムへの収束を保証するものではありません。しかし、R1 と R2 の正則化を組み合わせることで、強力な安定性とモードカバレッジが提供されます。このモデルの重要な革新点は、拡散モデルの信頼性と GAN の効率性を組み合わせた点にあります。これにより、フレーム全体を処理しながらターゲット解像度に対して動的に調整することが可能になります。

image
image

サンプル結果

動画のアップスケーリング結果を最もよく理解するには、直接比較することが最適です。以下の 3 つのサンプルでは、元の素材から異なるアップスケーリング手法を経て、品質がどのように向上していくかを示しています。

オリジナル映像

ここで示されているオリジナルソース映像は、240p レゾリューションの動画クリップです。エッジ周辺に目に見えるピクセル化が見られ、全体的に詳細と鮮明さが欠けている点にご注意ください。これは特に鳥、植物、ピーナッツの質感において顕著です。低解像度によるぼやけた外観は、現代の高解像度ディスプレイではより明確に認識されます。

image
image

双三次補間アルゴリズムによるアップスケーリング

従来の双三次補間(Bicubic)アップスケーリングを適用して 540p レゾリューションを実現すると、オリジナル映像と比較して全体的なシャープネスにわずかな改善が見られます。しかし、この数学的補間手法の限界が明らかになります。画像は大きくなりますが、質感の平滑化などの目に見えるアーティファクトはまだ残っています。アルゴリズムは本物の詳細を再現することに苦慮しており、その結果として、高解像度映像の自然な特徴を欠いた、やや人工的な外観のものが生成されてしまいます。

image
image

SeedVR2 のアップスケーリング

SeedVR2 でアップスケーリングした結果は、解像度を 540p に向上させる一方で視覚的な品質の改善を示しています。AI による強化機能は、自然なテクスチャを維持しつつ微細なディテールを再構築します。鳥、植物、ピーナッツ、その他の要素のテクスチャにおける明瞭度の向上にご注意ください。処理された映像は、よりフィルムライクな品質となり、色の一貫性とエッジの定義性が向上しています。

image
image

クリーンアップ

追加のコストが発生しないように、以下の手順に従って作成したリソースを削除してください。

ステップ 1: S3 バケットの空化

入力および出力バケットからすべてのオブジェクトを削除します:

aws s3 rm s3:// --recursive

aws s3 rm s3:// --recursive

ステップ 2: AWS CDK スタックの破棄

展開されたすべてのインフラストラクチャを撤去します:

cdk destroy --all --force

ステップ 3: ローカルファイルのクリーンアップ

ローカル環境から CDK ビルド成果物と Python キャッシュファイルを削除します:

rm -rf cdk.out/ .cdk.staging/

find . -type d -name "__pycache__" -delete

ステップ 4: クリーンアップの確認

すべてのリソースが削除されたことを確認します:

aws cloudformation list-stacks --stack-status-filter DELETE_COMPLETE

aws s3 ls | grep seedvr

aws sagemaker list-processing-jobs --max-results 5

結論

本記事では、Amazon SageMaker AI 上で SeedVR2 を実装し、スケーラブルな動画エンハンスメントを実現する方法について紹介しました。SeedVR2 の AI ドライブ型アップスケーリングと AWS クラウドインフラを組み合わせることで、このソリューションは組織規模に関わらず大規模展開が可能なコスト効果の高い動画品質向上アプローチを提供します。オンデマンドアーキテクチャは効率的なリソース利用をサポートし、自動化されたワークフローにより手動介入を最小限に抑えます。これにより、あらゆる規模の組織が高品質な動画エンハンスメントを利用可能になります。

動画コンテンツが継続的に増加し、ディスプレイ技術が進化する中で、効率的なアップスケーリングソリューションへの需要も高まっています。本実装は、クラウドアーキテクチャが高度な動画処理へのアクセスをどのように改善できるかを示しています。これにより、大規模なインフラ投資なしに、上昇する品質要件を満たすことが可能になります。

このソリューションは、パフォーマンス、コスト、運用効率のバランスが取れたフレームワークを提供します。詳細なデプロイ手順により、セキュリティとスケーラビリティのベストプラクティスを維持しながら、これらの機能を迅速に活用を開始できます。

開始するには、GitHub サイトにある sample-sagemaker-video-upscaler リポジトリ を探索し、ご自身のユースケースに合わせてソリューションをデプロイしてください。また、機能強化やバグ修正のためのプルリクエストの提出や課題の作成を通じて、プロジェクトへの貢献も可能です。

著者について

imageimage

## Nick Biso

Nick は AWS Professional Services の機械学習エンジニアです。データサイエンスとエンジニアリングを活用して、組織的かつ技術的な複雑な課題の解決にあたっています。さらに、AWS Cloud 上で AI/ML モデルの構築とデプロイも手掛けています。彼の情熱は、旅行や多様な文化的体験への関心にも及んでいます。

<div class="blog-author-"

原文を表示

As display technologies advance to higher resolutions, many organizations face a common challenge: their existing video libraries contain lower-resolution content that appears pixelated or blurry on modern high-definition displays. Traditional video upscaling approaches often struggle with computational limits, inconsistent quality, and scalability issues when processing large video collections. Many existing solutions also lack the techniques needed to restore fine details, sharpen edges, and reduce noise artifacts.

SeedVR2 is an open-source video restoration model developed by ByteDance’s Seed team. Running SeedVR2 on Amazon SageMaker AI addresses these challenges by providing a scalable solution for upscaling and video quality enhancement, also known as super resolution. This approach analyzes visual information frame by frame to restore details and improve video quality, so you don’t need to repurchase content in higher resolutions. With SageMaker managed infrastructure, you can process video collections at scale while maintaining cost efficiency and performance.

In this post, we demonstrate how to implement video upscaling using SeedVR2 on SageMaker AI. We cover the solution architecture, walk through the deployment steps, and show performance comparisons that highlight the quality improvements and processing efficiency you can achieve. By the end of this post, you’ll have the practical knowledge needed to implement this super resolution solution.

Use cases

Video upscaling has many applications across industries. Archives, museums, and broadcasters can restore and digitize historical footage at higher resolutions. This preserves cultural heritage and makes it suitable for modern viewing services. Streaming services can upscale older TV shows and movies to 4K or higher resolutions. This enhances subscriber experiences without requiring complete remasters of vast content libraries.

An emerging and valuable application is upscaling AI-generated videos, which often start at lower resolutions because of the computational intensity of generation models. By applying specialized upscaling algorithms to these synthetic videos, creators can turn computationally efficient rough drafts into polished, high-resolution final products. This avoids the much higher processing requirements of generating directly at high resolutions. The result is a two-stage workflow where you can rapidly prototype ideas at lower resolutions before enhancing them. This approach reduces the time and computing resources needed for AI video production while maintaining visual quality that meets modern display standards.

Solution architecture

The solution uses a three-tier AWS architecture defined with AWS Cloud Development Kit (AWS CDK) for infrastructure as code. The SecurityStack establishes the foundation with Amazon Virtual Private Cloud (Amazon VPC) configuration, AWS Identity and Access Management (AWS IAM) roles with least-privilege access, and AWS Key Management Service (AWS KMS) encryption keys. This stack creates the security perimeter that isolates the video processing workloads within private subnets while maintaining secure access to AWS services through VPC endpoints.

Three-tier solution architecture showing the security stack, data storage stack, and processing pipeline connecting Lambda, SageMaker AI, and S3 buckets
Three-tier solution architecture showing the security stack, data storage stack, and processing pipeline connecting Lambda, SageMaker AI, and S3 buckets

The DataStack implements the storage layer using Amazon Simple Storage Service (Amazon S3) buckets with server-side encryption for both input and output video files. The input bucket stores raw videos, and the output bucket stores the upscaled videos. Both buckets implement versioning with lifecycle policies for object management.

The core processing pipeline runs through an AWS Lambda function that starts an Amazon SageMaker AI processing job. The job uses ml.g5.4xlarge instances that run a custom Docker container. This container packages the SeedVR2 model for ComfyUI and provides high-quality video upscaling with configurable parameters for resolution and batch processing. The solution uses ComfyUI as the inference framework to run SeedVR2, which provides hardware-optimized execution.

The processing workflow begins when you upload videos to the input S3 bucket. The Lambda function then creates a SageMaker processing job that pulls the custom container from Amazon Elastic Container Registry (Amazon ECR), mounts the input and output S3 buckets, and runs the video upscaling algorithm on GPU-enabled infrastructure. The processed videos are saved to the output bucket. Amazon CloudWatch provides logging for monitoring and troubleshooting throughout the pipeline.

SeedVR2 data flow

The following diagram shows how data flows through the solution.

Data flow diagram showing a raw video moving from the S3 input bucket through a Lambda-triggered SageMaker processing job on a GPU instance to the S3 output bucket
Data flow diagram showing a raw video moving from the S3 input bucket through a Lambda-triggered SageMaker processing job on a GPU instance to the S3 output bucket

The processing workflow begins when you upload a raw video to the S3 input bucket. You then trigger the Lambda function, which creates a SageMaker processing job with a unique timestamp name. SageMaker starts an ml.g5.4xlarge GPU instance, pulls the SeedVR2 container from Amazon ECR, and mounts the S3 input bucket to read the video files for processing. The SeedVR2 model upscales the videos on the GPU and writes the processed output to the S3 output bucket. The instance then terminates. You can retrieve the upscaled videos from the output bucket.

Deployment steps

Prerequisites

Before you begin, make sure you have the following tools and resources installed and configured:

  • Python 3.13+
  • The AWS Command Line Interface (AWS CLI)
  • Docker
  • AWS Cloud Development Kit (AWS CDK) v2
  • An AWS account with appropriate permissions
  • A service quota request for ml.g5.4xlarge in SageMaker processing jobs

Step 1: Clone the project and set up your environment

Clone the repository and create your environment configuration file:

code
git clone https://github.com/aws-samples/sample-sagemaker-video-upscaler.git
cd sample-sagemaker-video-upscaler
cp .env.example .env

Edit your .env file with your AWS account details:

code
AWS_ACCOUNT_ID=
REGION=

Step 2: Install dependencies and bootstrap AWS CDK

Install dependencies using uv, a fast Python package manager, and create a virtual environment:

code
curl -LsSf https://astral.sh/uv/install.sh | sh
uv venv --python 3.13 and source .venv/bin/activate
uv sync

Bootstrap AWS CDK in your AWS account. This is a one-time setup step. If you encounter permission errors, verify your credentials with aws sts get-caller-identity.

code
cdk bootstrap aws:///

Step 3: Authenticate with Amazon ECR

Authenticate Docker with the AWS Deep Learning Container Amazon ECR registry in us-east-1. This is required to pull the PyTorch base image during the local Docker build, regardless of your deployment Region. If the Docker build fails, check your Amazon ECR authentication and run docker system prune -a to clear cached images.

code
aws ecr get-login-password --region us-east-1 | \
docker login --username AWS --password-stdin \
763104351884.dkr.ecr.us-east-1.amazonaws.com

Step 4: Deploy the infrastructure

Deploy your entire infrastructure with a single command. This creates your VPC, S3 buckets, Lambda function, SageMaker processing job definition, and Amazon ECR repository. Deployment takes 15–20 minutes to complete, depending on your compute and network speed.

code
cdk deploy --all --require-approval never

Step 5: Test the pipeline

Upload a test video to the input S3 bucket:

code
aws s3 cp your-video.mp4 s3://--datastack-input-bucket/

Trigger the Lambda function to start the processing job:

code
aws lambda invoke \
--function-name SeedVrStack-ProcessingJob-Trigger-SeedVr-trigger-Lambda \
--payload '{}' \
output.json

Monitor the process through Amazon CloudWatch Logs for Lambda execution, the SageMaker console for processing job status, and the S3 console for your enhanced video output. If the processing job fails, review the CloudWatch logs under /aws/sagemaker/ProcessingJobs. Also verify that the output bucket contains your upscaled video file.

Tuning performance

You can customize your processing parameters in config/config.yaml:

code
InstanceType: ml.g5.4xlarge # Minimum
resolution: "540" # Output quality
batch_size: "81" # Processing efficiency
model: "seedvr2_ema_3b_fp8_e4m3fn.safetensors"

For a full list of models, see the SeedVR2 ComfyUI models on the Hugging Face website.

Cost management

The ml.g5.4xlarge instance costs approximately USD 1.20 per hour (at the time of writing, depending on your Region), and you only pay for instance uptime. S3 storage costs are minimal for most use cases.

Scaling and beyond

This pipeline handles everything from single videos to batch processing automatically. For larger datasets, consider using multiple parallel instances by changing S3DataDistributionType to ShardedByS3Key in the create_processing_job boto3 call. For more information, see the ProcessingS3Input API reference.

How SeedVR2 works

SeedVR2 is a video restoration model that combines diffusion models and generative adversarial networks (GANs) through a process called diffusion adversarial post-training (APT). At its core, the technology uses AI to reconstruct missing details and is built on a 16 billion parameter GAN architecture. The system operates through a two-stage APT process. This process includes progressive distillation that compresses 64 steps down to 1, and real data training that learns from actual high-resolution videos. The architecture uses a Swin Transformer for adaptive window attention and incorporates multiple safeguards, including relativistic pairing GAN (RpGAN) loss, R1/R2 regularization, and feature matching loss. Like regular GANs, RpGANs are not guaranteed to converge to the global minimum. However, the combination of R1 and R2 regularization provides strong stability and mode coverage. The model’s key innovation combines the reliability of diffusion models with the efficiency of GANs. This lets it process entire frames while dynamically adjusting to target resolutions.

Diagram of the SeedVR2 two-stage diffusion adversarial post-training architecture combining diffusion models and a GAN
Diagram of the SeedVR2 two-stage diffusion adversarial post-training architecture combining diffusion models and a GAN

Sample results

You can best understand video upscaling results through direct comparison. The following three samples show the progression of quality enhancement, from the original source material through different upscaling methods.

Raw video

The original source footage shown here is a 240p resolution video clip. Note the visible pixelation, especially around edges, and the overall lack of detail and clarity. This is particularly noticeable in the texture of the bird, plant, and peanuts. The low resolution produces a blurry appearance that becomes more apparent on modern high-resolution displays.

Bicubic algorithm upscaling

When you apply traditional bicubic upscaling to achieve 540p resolution, you see minor improvements in overall sharpness compared to the raw footage. However, the limitations of this mathematical interpolation method become evident. The image is larger, but there are still noticeable artifacts like texture smoothing. The algorithm struggles to recreate authentic detail. Instead, it produces somewhat artificial-looking results that lack the natural characteristics of high-resolution footage.

SeedVR2 upscaling

The SeedVR2 upscaled result shows improvement in visual quality while increasing the resolution to 540p. The AI-powered enhancement reconstructs fine details while maintaining natural-looking textures. Notice the improved clarity in the textures of the bird, plant, peanuts, and other elements. The processed footage achieves a more film-like quality with better color consistency and edge definition.

Clean up

To avoid incurring additional costs, remove the resources you created by following these steps.

Step 1: Empty the S3 buckets

Delete all objects from the input and output buckets:

code
aws s3 rm s3:// --recursive
aws s3 rm s3:// --recursive

Step 2: Destroy the AWS CDK stacks

Tear down all deployed infrastructure:

code
cdk destroy --all --force

Step 3: Clean local files

Remove CDK build artifacts and Python cache files from your local environment:

code
rm -rf cdk.out/ .cdk.staging/
find . -type d -name "__pycache__" -delete

Step 4: Verify cleanup

Confirm that all resources have been removed:

code
aws cloudformation list-stacks --stack-status-filter DELETE_COMPLETE
aws s3 ls | grep seedvr
aws sagemaker list-processing-jobs --max-results 5

Conclusion

In this post, we showed how to implement SeedVR2 on Amazon SageMaker AI for scalable video enhancement. By combining SeedVR2’s AI-driven upscaling with AWS cloud infrastructure, this solution provides a cost-effective approach to video quality enhancement that you can deploy at scale. The on-demand architecture supports efficient resource use, and the automated workflow reduces manual intervention. This makes high-quality video enhancement accessible to organizations of all sizes.

As video content continues to grow and display technologies advance, the need for efficient upscaling solutions also grows. This implementation shows how cloud architecture can improve access to advanced video processing. With it, you can meet rising quality expectations without large infrastructure investments.

This solution gives you a framework that balances performance, cost, and operational efficiency. The detailed deployment steps help you start using these capabilities quickly while maintaining security and scalability best practices.

To get started, explore the sample-sagemaker-video-upscaler repository on the GitHub website and deploy the solution for your own use case. You can also contribute to the project by submitting pull requests or opening issues for enhancements and bug fixes.

About the authors

Nick Biso
Nick Biso

Nick Biso

Nick is a Machine Learning Engineer at AWS Professional Services. He solves complex organizational and technical challenges using data science and engineering. In addition, he builds and deploys AI/ML models on the AWS Cloud. His passion extends to his proclivity for travel and diverse cultural experiences.

<div class="blog-author-

この記事をシェア

関連記事

AWS Machine Learning Blog★42026年6月26日 01:41

NVIDIA Blackwell を用いた Amazon SageMaker AI でのモデル学習の最適化

AWS は、NVIDIA の最新 GPU「Blackwell」を活用することで、Amazon SageMaker AI 上で大規模 AI モデルの学習におけるメモリ制約やシーケンス長の制限といった課題を克服し、実用的な運用範囲を広げる方法を発表した。

AWS Machine Learning Blog★42026年6月17日 05:16

Amazon SageMaker AI にコンテナキャッシュ機能を導入し、モデルのスケーリングを高速化

AWS は生成 AI モデルのスケールアウト時にエンドツーエンドのレイテンシを最大 2 倍短縮する「コンテナイメージキャッシング」機能を Amazon SageMaker AI 推論に追加した。

AWS Machine Learning Blog★42026年6月17日 02:47

Amazon SageMaker AI で P-EAGLE を用いた推測的デコーディングの並列化

AWS は、大規模言語モデルの推論スループットを最大化し遅延を最小化する戦略として、軽量ドラフトモデルとターゲット LLM を組み合わせた「P-EAGLE」による推測的デコーディングの並列化技術を Amazon SageMaker AI で実装したと発表した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む