StereoFoley:映像から物体認識型ステレオ音声を生成するフレームワーク
Apple Machine Learning は、従来のモノラルや物体認識に欠ける既存モデルの課題を解決し、動画から意味論的・時間的・空間的に整合したステレオ音声を生成する「StereoFoley」フレームワークを発表しました。
キーポイント
物体認識型ステレオ音声生成の実現
動画内の特定のオブジェクトを認識し、それに対応する空間的に正確なステレオサウンドを生成する能力を備えた初のフレームワークです。
専門ミキシングデータセットの不足克服
従来、プロフェッショナルにミックスされた空間音響データセットが不足していたため実現困難だった課題に対し、新しいアプローチで解決を図っています。
高品質な生成性能と同期化
48kHz のサンプリングレートで動作し、意味論的精度と時間的同期性において現状最良(SOTA)の成果を達成しています。
影響分析・編集コメントを表示
影響分析
この発表は、動画生成 AI の分野における「音響の空間表現」の標準を大きく引き上げるものであり、単なるモノラル音声から物体ごとの位置情報を考慮した立体音響へ移行する転換点となります。特に Apple が主導してデータセットの不足という根本課題に着手した点は、業界全体の技術水準向上と応用範囲の拡大に大きな影響を与えるでしょう。
編集コメント
動画と音声の統合において、視覚情報に基づいた「空間的な音の定位」を実現した点は、没入型体験(XR)やゲーム開発におけるサウンド設計のパラダイムシフトを促す極めて重要な技術です。
私たちは StereoFoley を発表します。これは、48 kHz で意味的に整合し、時間的に同期され、空間的に正確なステレオサウンドを生成するビデオからオーディオへの生成フレームワークです。最近の生成型ビデオからオーディオへのモデルは強力な意味的および時間的忠実度を達成していますが、専門的にミックスされた空間的に正確なビデオからオーディオへのデータセットの欠如に制約され、モノラルまたはオブジェクト認識型のステレオイメージングを提供できないという点で依然として制限されています。まず、私たちはビデオからステレオオーディオを生成するベースモデルを開発・訓練し、意味的精度と同期性の両方で最先端を達成しました。次に…
原文を表示
We present StereoFoley, a video-to-audio generation framework that produces semantically aligned, temporally synchronized, and spatially accurate stereo sound at 48 kHz. While recent generative video-to-audio models achieve strong semantic and temporal fidelity, they largely remain limited to mono or fail to deliver object-aware stereo imaging, constrained by the lack of professionally mixed, spatially accurate video-to-audio datasets. First, we develop and train a base model that generates stereo audio from video, achieving state-of-the-art in both semantic accuracy and synchronization. Next…
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み