#multimodal ai のAIニュース
16件の記事
バイトダンスの新型 AI 動画モデル「Seedance 2.5」が単一プロンプトで 30 秒間の映像を生成可能に
バイトダンスは、単一のテキスト指示だけで 4K 解像度・30 秒間の動画を生成できる新モデル「Seedance 2.5」を発表した。ユーザーは最大 50 の画像や動画などを参照素材として指定でき、中国では来月提供開始予定である。
NVIDIA XR AI を用いた AR グラスおよび XR デバイス向け AI エージェントの構築
NVIDIA は、クラウドやエッジで動作する GPU 加速 AI サービスと拡張現実デバイスを接続するための再利用可能な基盤「XR AI」を公開ベータ版として提供開始した。このオープンソースライブラリにより、開発者はユーザーの視界を理解し、意図を認識してエンタープライズツールを呼び出す知能型エージェントを構築できるようになる。
エージェントが2つのHugging Face Spaceを連鎖させて3Dのパリ美術館を構築した方法
Hugging Face Blogは、AIエージェントが2つの異なるHugging Face Spaceを連携させることで、3D形式のパリ美術館を構築するプロセスを紹介している。
効率的な推論のための MiniMax-M3 の提供:後悔のない 100 万トークンコンテキストとマルチモーダル性の解放
Together AI は、MiniMax-M3 モデルの提供を開始し、100 万トークンのコンテキスト長とマルチモーダル機能を効率的に実現した。
動画エージェントモデルが次世代へ — xAI のイーサン・ヘ氏に聞く Grok Imagine の開発秘話(98 分読み)
Nvidia コスモス世界モデルの元リーダー、イーサン・ヘ氏が xAI に移籍し、3 ヶ月で「Grok Image」を構築した経緯について、動画生成やマルチモーダル技術の最前線における実務の核心を語っている。
Grok Imagine Video 1.5 のプロンプト作成方法
Replicate が、X(旧 Twitter)の AI「Grok」が生成する動画モデル「Imagine Video 1.5」を効果的に操作するためのプロンプト作成ガイドを発表した。
Gemini がボルボの外部カメラを活用して駐車標識を解釈
Google とボルボは、I/O コンファレンスで発表し、AI アシスタント「Gemini」が次期 SUV「EX60」の外部カメラにアクセスできるようになると発表した。これにより、車両周囲の状況や駐車標識を所有者に説明・解釈する機能が追加される。
映像言語モデルに映画の語り方を教える研究
カーネギーメロン大学の研究者らが、視覚言語モデルに対して映画の構成や表現方法を学習させる手法を提案した。
Google の Gemini Omni ビデオモデルが I/O デビュー前に登場、チャット内で動画編集機能を統合
Google は次期イベント「I/O」に先駆け、チャット内で動画のリミックスや編集を直接行える新モデル「Gemini Omni video model」を発表した。このモデルは透かし除去や物体の差し替えなどの編集能力に優れるが、ByteDance の Seedance 2 に比べると映画のような画質では劣る。今後は Flash や Pro といった階層版として展開され、多様なモダリティを Gemini で統一する戦略の一環となる見込みである。
MolmoWeb:ウェブタスクを自動化するオープンエージェント
MolmoWebは、スクリーンショットのみでブラウザを操作しタスクを完了するオープンな視覚ウェブエージェントです。また、同様のエージェントの学習に使用される最大規模の公開データセット「MolmoWebMix」も同時に公開されました。
コーディングエージェントの仕組み
サイモン・ウィリソン氏が、LLMを拡張するソフトウェアであるコーディングエージェントの内部動作を解説し、適切な活用方法を提案している。
新たな自己表現の方法:Geminiが音楽を作成できるようになりました
Geminiアプリに最上級の音楽生成モデルLyria 3が搭載され、テキストや画像から30秒の楽曲を作成可能になりました。
AIとシミュレーションによる科学の加速
ラファエル・ゴメス・ボンバレリ准教授は、AIを科学発見に応用し、現在が転換点にあると指摘。
Qwen-Image-Edit:高品質かつ高効率な画像編集
Qwenチームは画像編集モデル「Qwen-Image-Edit」を発表した。20Bパラメータの基盤モデルを拡張し、高精度なテキスト編集と視覚制御を両立する技術を実現した。
QVQ-Max:根拠に基づく思考
Qwenチームは、画像や動画の内容を理解し分析・推論して数学やプログラミングなどの問題を解決する視覚推論モデル「QVQ-Max」の正式版を公開した。
汎用ビジュアル言語モデル
著者は、画像キャプションや視覚的質問応答といったビジョン言語タスクにおいて、従来の物体検出ネットワークに依存する手法ではなく、事前学習済みモデルを拡張するアプローチに焦点を当てて解説している。