#マルチモーダル学習 のAIニュース
4件の記事
StereoFoley:映像から物体認識型ステレオ音声を生成するフレームワーク
研究者らは、映像から意味的に整合し時間同期された空間正確なステレオ音声を 48kHz で生成する「StereoFoley」というフレームワークを発表した。既存モデルがモノラルに限定される中、この手法は物体認識に基づく立体音像を実現する。
Apple Machine Learning·4月28日·★★★★
Qwen3.5-Omniが音声指示と映像からコードを書く方法を誰にも教わらずに習得
アリババが音声・映像・画像・テキストを処理する多モーダルAIモデル「Qwen3.5-Omni」を発表した。同モデルは音声タスクでGemini 3.1 Proを上回り、訓練なしに音声指示と映像入力からコードを生成する能力を獲得した。
The Decoder·3月31日·★★★★
DoorDashが配達員がAIを訓練するための動画を投稿して報酬を得られる新アプリ「Tasks」を発表
DoorDashは配達員が日常業務の動画撮影や他言語での音声記録などのタスクを完了することで報酬を得られる新アプリ「Tasks」を発表した。
TechCrunch AI·3月20日·★★★★
【退職エントリー】ニュースとテクノロジー
スマートニュースのプロダクトマネージャー西岡氏が、退職エントリーを公開したことを伝えている。
SmartNews Developer Blog·6月21日·★★★★