#マルチモーダル学習のAIニュース

4件の記事

StereoFoley：映像から物体認識型ステレオ音声を生成するフレームワーク

研究者らは、映像から意味的に整合し時間同期された空間正確なステレオ音声を 48kHz で生成する「StereoFoley」というフレームワークを発表した。既存モデルがモノラルに限定される中、この手法は物体認識に基づく立体音像を実現する。

アリババが音声・映像・画像・テキストを処理する多モーダルAIモデル「Qwen3.5-Omni」を発表した。同モデルは音声タスクでGemini 3.1 Proを上回り、訓練なしに音声指示と映像入力からコードを生成する能力を獲得した。

DoorDashは配達員が日常業務の動画撮影や他言語での音声記録などのタスクを完了することで報酬を得られる新アプリ「Tasks」を発表した。

スマートニュースのプロダクトマネージャー西岡氏が、退職エントリーを公開したことを伝えている。