#multimodal ai のAIニュース

16件の記事

バイトダンスの新型 AI 動画モデル「Seedance 2.5」が単一プロンプトで 30 秒間の映像を生成可能に

バイトダンスは、単一のテキスト指示だけで 4K 解像度・30 秒間の動画を生成できる新モデル「Seedance 2.5」を発表した。ユーザーは最大 50 の画像や動画などを参照素材として指定でき、中国では来月提供開始予定である。

NVIDIA XR AI を用いた AR グラスおよび XR デバイス向け AI エージェントの構築

NVIDIA は、クラウドやエッジで動作する GPU 加速 AI サービスと拡張現実デバイスを接続するための再利用可能な基盤「XR AI」を公開ベータ版として提供開始した。このオープンソースライブラリにより、開発者はユーザーの視界を理解し、意図を認識してエンタープライズツールを呼び出す知能型エージェントを構築できるようになる。

TLDR AI·6月18日·★★★★

エージェントが2つのHugging Face Spaceを連鎖させて3Dのパリ美術館を構築した方法

Hugging Face Blogは、AIエージェントが2つの異なるHugging Face Spaceを連携させることで、3D形式のパリ美術館を構築するプロセスを紹介している。

Hugging Face Blog·6月9日·★★★★

効率的な推論のための MiniMax-M3 の提供：後悔のない 100 万トークンコンテキストとマルチモーダル性の解放

Together AI は、MiniMax-M3 モデルの提供を開始し、100 万トークンのコンテキスト長とマルチモーダル機能を効率的に実現した。

Together AI Blog·6月2日·★★★★

動画エージェントモデルが次世代へ — xAI のイーサン・ヘ氏に聞く Grok Imagine の開発秘話（98 分読み）

Nvidia コスモス世界モデルの元リーダー、イーサン・ヘ氏が xAI に移籍し、3 ヶ月で「Grok Image」を構築した経緯について、動画生成やマルチモーダル技術の最前線における実務の核心を語っている。

TLDR AI·6月2日·★★★★

Grok Imagine Video 1.5 のプロンプト作成方法

Replicate が、X（旧 Twitter）の AI「Grok」が生成する動画モデル「Imagine Video 1.5」を効果的に操作するためのプロンプト作成ガイドを発表した。

Replicate·5月21日·★★★★

Gemini がボルボの外部カメラを活用して駐車標識を解釈

Google とボルボは、I/O コンファレンスで発表し、AI アシスタント「Gemini」が次期 SUV「EX60」の外部カメラにアクセスできるようになると発表した。これにより、車両周囲の状況や駐車標識を所有者に説明・解釈する機能が追加される。

The Verge AI·5月20日·★★★★

映像言語モデルに映画の語り方を教える研究

カーネギーメロン大学の研究者らが、視覚言語モデルに対して映画の構成や表現方法を学習させる手法を提案した。

ML@CMU·5月14日

Google の Gemini Omni ビデオモデルが I/O デビュー前に登場、チャット内で動画編集機能を統合

Google は次期イベント「I/O」に先駆け、チャット内で動画のリミックスや編集を直接行える新モデル「Gemini Omni video model」を発表した。このモデルは透かし除去や物体の差し替えなどの編集能力に優れるが、ByteDance の Seedance 2 に比べると映画のような画質では劣る。今後は Flash や Pro といった階層版として展開され、多様なモダリティを Gemini で統一する戦略の一環となる見込みである。

TLDR AI·5月12日·★★★★