1件の記事
研究者らは、映像から意味的に整合し時間同期された空間正確なステレオ音声を 48kHz で生成する「StereoFoley」というフレームワークを発表した。既存モデルがモノラルに限定される中、この手法は物体認識に基づく立体音像を実現する。