#マルチモーダルai のAIニュース
114件の記事
PrismAudio:音声と映像の同期、音響効果の追従
通義実験室が2026年3月24日に、AI音響効果ツール「PrismAudio」をオープンソースで公開した。このツールは、映像の内容に合った音声を自動生成し、意味の一貫性、タイミングの同期、美的品質の3点を同時に満たすことを目指している。
Luma AIのUni-1、GoogleのNano Banana画像優位性に対する初の真の挑戦者となる可能性
Luma AIがUni-1を発表した。同モデルは画像理解と生成を単一アーキテクチャで統合し、生成しながらプロンプトを推論する。OpenAIとGoogleへの挑戦となる可能性がある。
コンピューターでClaudeを活用する
AnthropicがClaude AIをユーザーのローカルコンピューターで直接動作させる機能を発表した。これにより、データ処理のプライバシーと応答速度が向上する。
Xiaomiが3つのMiMo AIモデルを発表、エージェント・ロボット・音声を駆動
中国企業Xiaomiが、ソフトウェアの自律制御やブラウザでの買い物、将来的なロボット制御を可能にするAIエージェント構築を目指し、自社MiMoチームが3つのAIモデルを同時発表した。
Nemotron 3 Content Safety 4B:マルチモーダル・多言語コンテンツモデレーション
NVIDIAが、画像とテキストを同時に分析できるマルチモーダルAIモデル「Nemotron 3 Content Safety 4B」を発表した。このモデルは100言語に対応し、有害コンテンツの自動検出を可能にする。
データセンターへの攻撃、全サイズのQwen3.5、DeepSeekの華為戦略、Appleのマルチモーダルトークナイザー
AI業界では、データセンターへの攻撃懸念、Qwen3.5の全サイズ展開、DeepSeekの華為連携、Appleのマルチモーダルトークナイザー開発が進む。
GoogleのStitchとAI駆動開発の変革
GoogleはAIネイティブなプラットフォーム「Stitch」を発表した。同プラットフォームは、ユーザーがテキスト、画像、音声コマンドを使用してUIデザインを作成できるAIネイティブキャンバスを統合している。
Amazon BedrockとAmazon Nova Reelを用いたビデオ生成のためのRAG活用
Amazonは、事前学習済みモデルの限界を克服するため、構造化テキストをカスタムビデオに変換するVideo Retrieval Augmented Generation(VRAG)マルチモーダルパイプラインを開発した。この技術は広告・メディア・教育・ゲーム業界でのビデオ生成のカスタマイズ性を向上させる。
Bark.comとAWSがスケーラブルな動画生成ソリューションを構築する方法
Bark.comとAWSは、AIを活用した動画コンテンツ生成の品質を維持しつつ生産時間を短縮するスケーラブルなソリューションを共同開発した。
マネーフォワード、Cursorのコーディングエージェントをプロダクト・デザイン・QA部門に導入
マネーフォワードがCursor社のAIコーディングエージェントをプロダクト開発・デザイン・品質保証部門に導入し、1,000人以上の従業員が日常的に利用している。
テンセント最新決算:混元AIの性能が継続的に向上
テンセントが2025年第4四半期および通期の決算を発表し、同社のAIモデル「混元」の性能が継続的に向上していることを明らかにした。
Mistralの新モデルSmall 4、128の専門家モジュールで高性能を発揮
Mistral AIがMistral Small 4をリリースした。同モデルは高速なテキスト応答、論理的推論、画像処理を統合し、128の専門家モジュールを搭載している。
階躍星辰の「最強ロブスター脳」が極氪8Xに搭載:今すぐ出発!
階躍星辰は、AIモデル「ロブスター脳」Step 3.5 Flashを吉利の新車両インテリジェントエージェント「スーパーEva」に統合し、極氪8Xで初めて搭載することを発表した。
TrajTok:軌跡トークンの学習により動画理解が向上
研究者らが、動画モデルの効率と拡張性を向上させるため、外部パイプラインに依存しない統合型トークナイザー「TrajTok」を提案した。
Memories AIがウェアラブルとロボティクスのための視覚的記憶層を構築中
Memories AIは、物理AI向けにビデオ記録された記憶を索引付け・検索できる大規模視覚記憶モデルを構築している。
DoorDashが3200万ラベルで画像・テキスト・クエリを統合するDashCLIPを構築、意味検索を強化
DoorDashは、対照学習で3200万のラベル付きクエリ・商品ペアを学習したマルチモーダル機械学習システムを発表した。このシステムは商品画像、テキスト、ユーザークエリを共有埋め込み空間で統合し、意味検索、商品ランキング、広告関連性を向上させる。
RubiCap: ルーブリックに基づく強化学習による詳細な画像キャプション生成
研究者らは、高品質な画像キャプション生成の課題に対処するため、ルーブリックに基づく強化学習手法「RubiCap」を提案した。この手法は、多様性と汎化性を向上させ、大規模な注釈コストを削減することを目指している。
Googleが3つのNano Banana画像生成モデルの違いを説明
GoogleがNano Banana画像生成モデルの3種類の違いと使用場面を解説。低コストのNano Banana 2はPro版の95%の性能を持ち、生成前にWebから参考画像を自律的に検索可能。
Claudeがチャット内でインタラクティブなチャートと視覚化を直接作成可能に
AnthropicはAIチャットボットClaudeに、会話内でインタラクティブな図表や視覚化を生成する新機能をベータ公開した。
Googleの新機能「Ask Maps」がGemini AIで平易な言語での場所検索を可能に
GoogleがGoogle Mapsに「Ask Maps」機能を追加し、Gemini AIを活用して複雑な質問を平易な言語で受け付け、カスタマイズされた地図上にパーソナライズされた結果を表示する。
OpenAI、動画生成AI「Sora」をChatGPTに統合する計画と報道
OpenAIは、動画生成AI「Sora」をChatGPTに統合し、9億2000万人のユーザーに提供する計画を進めていると報じられた。
混元世界モデルのさらなる進化:世界モデル向け初のオープンソース強化学習後訓練フレームワーク「WorldCompass」を公開
テンセント混元3Dチームは、世界モデル向け初のオープンソース強化学習後訓練フレームワーク「WorldCompass」を公開した。このフレームワークは、世界モデルの対話精度と体験を向上させることを目的としている。
Luma AIの新画像モデルUni-1、論理ベンチマークでNano Banana 2とGPT Image 1.5を上回る
Luma AIが、画像理解と生成を単一アーキテクチャで統合し、プロンプトを推論しながら生成するモデル「Uni-1」を発表した。同モデルは論理ベンチマークでOpenAIとGoogleのモデルを上回った。
LLMのテキストデータは枯渇しつつあるが、Metaはラベルなし動画を次の巨大な学習フロンティアと指摘
Meta FAIRとニューヨーク大学の研究チームがマルチモーダルAIモデルを一から学習させ、従来のモデル構築に関する通説が成り立たないことを発見した。
独占: Luma、新「Unified Intelligence」モデル搭載の創造的AIエージェントを発表
Lumaは、複数のAIシステムを調整し、テキスト・画像・動画・音声にわたるエンドツーエンドの創造的作業を生成できる新モデル「Unified Intelligence」を搭載した「Luma Agents」を発表した。
Netflix、ベン・アフレックのAI映画制作会社InterPositiveを買収
Netflixは、ベン・アフレックが設立したAI映画制作会社InterPositiveを買収した。アフレックは「人間の物語の人間らしさを守りたい」と述べている。
エージェントセッションに画像を追加
GitHubが、リポジトリのエージェントタブなどで、画像の貼り付け・ドラッグ・クリックによるエージェントセッションの迅速な開始機能を発表した。
Phi-4-reasoning-visionとマルチモーダル推論モデル訓練の教訓
マイクロソフトは、Phi-4-reasoning-vision-15Bというコンパクトで効率的なマルチモーダル推論モデルを開発し、視覚言語タスクや数学・科学推論に優れる性能を実現した。同社はその訓練プロセスから得られた教訓を共有している。
CVPR 2026採択結果発表、テンセントの混元モデル関連論文25本以上が選出
テンセントは、2026年の国際会議CVPRにおいて、混元モデルに関する論文25本以上が採択されたと発表した。同会議は人工知能とコンピュータビジョンの主要な場であり、多様な研究が発表される。
NVIDIA GPUアクセラレーテッドエンドポイントを使用したQwen3.5 VLMによるネイティブマルチモーダルエージェントの開発
Alibabaが約4000億パラメータのネイティブマルチモーダルエージェント向けに設計されたオープンソースQwen3.5シリーズを発表した。
Google、AI機能を追加したNano Banana 2をリリース
Googleが最新モデル「Nano Banana 2」を発表。Geminiの知識ベースを活用し、ウェブ検索からのリアルタイム情報と画像へのアクセスを提供し、より正確な主題描写を可能にした。
AnthropicがVerceptを買収し、Claudeのコンピュータ画面読み取り・操作能力を強化
Anthropicはスタートアップ企業Verceptを買収し、同社の画面認識モデル「VyUI」を活用してAIアシスタント「Claude」のコンピュータ画面の読み取りと操作能力を向上させる。
Googleがより高速な画像生成を実現するNano Banana 2モデルを発表
GoogleがNano Banana 2モデルを発表し、GeminiアプリとAIモードのデフォルトモデルとして採用した。同モデルは画像生成の速度向上を特徴とする。
GoogleがAIクリエイティブスタジオ「Flow」を新機能と統合機能で再始動
GoogleがAIクリエイティブスタジオ「Flow」を新機能と統合機能を追加して再リリースし、AIを活用したコンテンツ制作ツールの進化を示しています。
アドビの新Firefly「Quick Cut」ツール、テキストプロンプトから生映像をラフ編集に変換
アドビのFireflyが新機能「Quick Cut」を追加。テキストプロンプトから生映像を自動でラフ編集できるようになり、映像編集の効率化が期待される。
AIが細胞生物学における全体像の把握を支援
AIを活用した手法により、細胞の包括的情報を提供することで、科学者が疾患メカニズムをより深く理解し、実験計画を立てるのを支援する。
AnthropicがVerceptを買収しClaudeのコンピュータ利用能力を向上
AnthropicがVerceptを買収し、AIアシスタントClaudeのコンピュータ操作能力を強化。AIの実用性向上を目指す。
Amazon Rekognition、Amazon Neptune、Amazon Bedrockを使用したインテリジェントな写真検索システムの構築
AWS CDKを活用し、Amazon Rekognitionで顔・物体検出、Amazon Neptuneで関係性マッピング、Amazon BedrockでAIキャプション生成を統合した包括的な写真検索システムの構築方法を紹介。
音楽生成AI「ProducerAI」がGoogle Labsに参加
Wyclef Jeanが新曲でGoogleのAI音楽ツールを使用。ProducerAIがGoogle Labsに加わり、AIによる音楽制作の可能性を示す。
ParticleのAIニュースアプリがポッドキャストから興味深いクリップを抽出
AIニュースアプリParticleがポッドキャストから重要な瞬間を抽出し、関連記事と共に短く関連性の高いクリップを即座に再生できる機能を追加しました。
AI Gatewayによる動画生成
AI Gatewayが動画生成機能を追加し、写真のようにリアルな画質と同期した音声を持つ映画的な動画を作成できるようになった。AI SDK 6を通じて、テキストや画像と同じインターフェースでプログラム的に動画を生成可能。
なぜ12年前の予測論文は時代の試練に耐え続けているのか
アマゾン研究者が2014年に発表したラテンアメリカの社会不安予測論文が、2025年KDDで「時代を超えた価値賞」を受賞した。
Claude Sonnet 4.6の紹介
Claude Sonnet 4.6の新バージョンがリリースされました。AIモデルの性能向上と新機能を提供します。
「思考」がより深く、生成がより正確に|Seedream 5.0 Lite リリース
バイトダンスがSeedream 5.0 Liteをリリースし、理解・推論・生成能力を全面的に向上させた。
DagsterとMetaxyによるMLパイプラインのサンプルレベルバージョン管理
Metaxyを使用して、Dagster上でサンプルレベルの粒度を持つマルチモーダルデータパイプラインを構築する方法を紹介します。
Seedance 2.0 正式リリース
バイトダンスが多モーダル音声・映像連合生成モデル「Seedance 2.0」を発表し、複雑な動き表現でSOTAを達成した。
R²D²:NVIDIA Isaac Labによるマルチモーダルロボット学習の拡張
NVIDIA Isaac Labが開発したR²D²は、マルチモーダルロボット学習を拡張する技術で、ロボットの知能向上を目指しています。
予測的逆動力学モデルによる模倣学習の再考
予測的逆動力学モデルは、次の状態を予測することで曖昧さを減らし、少ないデモンストレーションで標準的な行動模倣を上回る性能を発揮する理由を探る研究。
Nemotronを使用したRAG向け文書処理パイプラインの構築方法
NVIDIAが、複雑なPDFの解析、ネストされた表の抽出、チャート内データの認識を可能にする、RAG(検索拡張生成)向け文書処理パイプラインの構築方法を紹介している。
チャットボットを超えて:信頼できるAIのための青写真
Google開発者エキスパートチームがサンダーヒル・レースウェイパークで「信頼できるAIフレームワーク」をテストした。