#マルチモーダルai のAIニュース

115件の記事

Lyria 3 Pro：構造認識により長いトラックを作成可能に

GoogleはLyria 3 Proを発表し、構造認識機能により長い音楽トラックの生成を可能にした。また、Lyriaをより多くのGoogle製品やプラットフォームに導入する。

Google DeepMind·3月26日

PrismAudio：音声と映像の同期、音響効果の追従

通義実験室が2026年3月24日に、AI音響効果ツール「PrismAudio」をオープンソースで公開した。このツールは、映像の内容に合った音声を自動生成し、意味の一貫性、タイミングの同期、美的品質の3点を同時に満たすことを目指している。

通义大模型·3月24日·★★★★★

Luma AIのUni-1、GoogleのNano Banana画像優位性に対する初の真の挑戦者となる可能性

Luma AIがUni-1を発表した。同モデルは画像理解と生成を単一アーキテクチャで統合し、生成しながらプロンプトを推論する。OpenAIとGoogleへの挑戦となる可能性がある。

The Decoder·3月24日·★★★★

コンピューターでClaudeを活用する

AnthropicがClaude AIをユーザーのローカルコンピューターで直接動作させる機能を発表した。これにより、データ処理のプライバシーと応答速度が向上する。

Claude Blog·3月23日·★★★★

Xiaomiが3つのMiMo AIモデルを発表、エージェント・ロボット・音声を駆動

中国企業Xiaomiが、ソフトウェアの自律制御やブラウザでの買い物、将来的なロボット制御を可能にするAIエージェント構築を目指し、自社MiMoチームが3つのAIモデルを同時発表した。

The Decoder·3月23日

Nemotron 3 Content Safety 4B：マルチモーダル・多言語コンテンツモデレーション

NVIDIAが、画像とテキストを同時に分析できるマルチモーダルAIモデル「Nemotron 3 Content Safety 4B」を発表した。このモデルは100言語に対応し、有害コンテンツの自動検出を可能にする。

Hugging Face Blog·3月21日·★★★★

データセンターへの攻撃、全サイズのQwen3.5、DeepSeekの華為戦略、Appleのマルチモーダルトークナイザー

AI業界では、データセンターへの攻撃懸念、Qwen3.5の全サイズ展開、DeepSeekの華為連携、Appleのマルチモーダルトークナイザー開発が進む。

The Batch·3月20日

GoogleのStitchとAI駆動開発の変革

GoogleはAIネイティブなプラットフォーム「Stitch」を発表した。同プラットフォームは、ユーザーがテキスト、画像、音声コマンドを使用してUIデザインを作成できるAIネイティブキャンバスを統合している。

AI Business·3月20日

Amazon BedrockとAmazon Nova Reelを用いたビデオ生成のためのRAG活用

Amazonは、事前学習済みモデルの限界を克服するため、構造化テキストをカスタムビデオに変換するVideo Retrieval Augmented Generation（VRAG）マルチモーダルパイプラインを開発した。この技術は広告・メディア・教育・ゲーム業界でのビデオ生成のカスタマイズ性を向上させる。

AWS Machine Learning Blog·3月20日·★★★★

Bark.comとAWSがスケーラブルな動画生成ソリューションを構築する方法

Bark.comとAWSは、AIを活用した動画コンテンツ生成の品質を維持しつつ生産時間を短縮するスケーラブルなソリューションを共同開発した。

AWS Machine Learning Blog·3月19日·★★★★

マネーフォワード、Cursorのコーディングエージェントをプロダクト・デザイン・QA部門に導入

マネーフォワードがCursor社のAIコーディングエージェントをプロダクト開発・デザイン・品質保証部門に導入し、1,000人以上の従業員が日常的に利用している。

Cursor Blog·3月18日·★★★★

テンセント最新決算：混元AIの性能が継続的に向上

テンセントが2025年第4四半期および通期の決算を発表し、同社のAIモデル「混元」の性能が継続的に向上していることを明らかにした。

腾讯混元·3月18日

Mistralの新モデルSmall 4、128の専門家モジュールで高性能を発揮

Mistral AIがMistral Small 4をリリースした。同モデルは高速なテキスト応答、論理的推論、画像処理を統合し、128の専門家モジュールを搭載している。

The Decoder·3月17日

階躍星辰の「最強ロブスター脳」が極氪8Xに搭載：今すぐ出発！

階躍星辰は、AIモデル「ロブスター脳」Step 3.5 Flashを吉利の新車両インテリジェントエージェント「スーパーEva」に統合し、極氪8Xで初めて搭載することを発表した。

阶跃星辰·3月17日·★★★★

TrajTok：軌跡トークンの学習により動画理解が向上

研究者らが、動画モデルの効率と拡張性を向上させるため、外部パイプラインに依存しない統合型トークナイザー「TrajTok」を提案した。

Apple Machine Learning·3月17日·★★★★

Memories AIがウェアラブルとロボティクスのための視覚的記憶層を構築中

Memories AIは、物理AI向けにビデオ記録された記憶を索引付け・検索できる大規模視覚記憶モデルを構築している。

TechCrunch AI·3月17日

DoorDashが3200万ラベルで画像・テキスト・クエリを統合するDashCLIPを構築、意味検索を強化

DoorDashは、対照学習で3200万のラベル付きクエリ・商品ペアを学習したマルチモーダル機械学習システムを発表した。このシステムは商品画像、テキスト、ユーザークエリを共有埋め込み空間で統合し、意味検索、商品ランキング、広告関連性を向上させる。

InfoQ·3月16日·★★★★

RubiCap: ルーブリックに基づく強化学習による詳細な画像キャプション生成

研究者らは、高品質な画像キャプション生成の課題に対処するため、ルーブリックに基づく強化学習手法「RubiCap」を提案した。この手法は、多様性と汎化性を向上させ、大規模な注釈コストを削減することを目指している。

Apple Machine Learning·3月16日·★★★★

Googleが3つのNano Banana画像生成モデルの違いを説明

GoogleがNano Banana画像生成モデルの3種類の違いと使用場面を解説。低コストのNano Banana 2はPro版の95%の性能を持ち、生成前にWebから参考画像を自律的に検索可能。

The Decoder·3月14日

Claudeがチャット内でインタラクティブなチャートと視覚化を直接作成可能に

AnthropicはAIチャットボットClaudeに、会話内でインタラクティブな図表や視覚化を生成する新機能をベータ公開した。

The Decoder·3月13日·★★★★

Googleの新機能「Ask Maps」がGemini AIで平易な言語での場所検索を可能に

GoogleがGoogle Mapsに「Ask Maps」機能を追加し、Gemini AIを活用して複雑な質問を平易な言語で受け付け、カスタマイズされた地図上にパーソナライズされた結果を表示する。

The Decoder·3月12日·★★★★

OpenAI、動画生成AI「Sora」をChatGPTに統合する計画と報道

OpenAIは、動画生成AI「Sora」をChatGPTに統合し、9億2000万人のユーザーに提供する計画を進めていると報じられた。

The Decoder·3月12日·★★★★

混元世界モデルのさらなる進化：世界モデル向け初のオープンソース強化学習後訓練フレームワーク「WorldCompass」を公開

テンセント混元3Dチームは、世界モデル向け初のオープンソース強化学習後訓練フレームワーク「WorldCompass」を公開した。このフレームワークは、世界モデルの対話精度と体験を向上させることを目的としている。

腾讯混元·3月10日·★★★★

Luma AIの新画像モデルUni-1、論理ベンチマークでNano Banana 2とGPT Image 1.5を上回る

Luma AIが、画像理解と生成を単一アーキテクチャで統合し、プロンプトを推論しながら生成するモデル「Uni-1」を発表した。同モデルは論理ベンチマークでOpenAIとGoogleのモデルを上回った。

The Decoder·3月9日·★★★★

LLMのテキストデータは枯渇しつつあるが、Metaはラベルなし動画を次の巨大な学習フロンティアと指摘

Meta FAIRとニューヨーク大学の研究チームがマルチモーダルAIモデルを一から学習させ、従来のモデル構築に関する通説が成り立たないことを発見した。

The Decoder·3月8日·★★★★

独占: Luma、新「Unified Intelligence」モデル搭載の創造的AIエージェントを発表

Lumaは、複数のAIシステムを調整し、テキスト・画像・動画・音声にわたるエンドツーエンドの創造的作業を生成できる新モデル「Unified Intelligence」を搭載した「Luma Agents」を発表した。

TechCrunch AI·3月6日·★★★★

Netflix、ベン・アフレックのAI映画制作会社InterPositiveを買収

Netflixは、ベン・アフレックが設立したAI映画制作会社InterPositiveを買収した。アフレックは「人間の物語の人間らしさを守りたい」と述べている。

TechCrunch AI·3月6日·★★★★

エージェントセッションに画像を追加

GitHubが、リポジトリのエージェントタブなどで、画像の貼り付け・ドラッグ・クリックによるエージェントセッションの迅速な開始機能を発表した。

GitHub Changelog·3月6日

Phi-4-reasoning-visionとマルチモーダル推論モデル訓練の教訓

マイクロソフトは、Phi-4-reasoning-vision-15Bというコンパクトで効率的なマルチモーダル推論モデルを開発し、視覚言語タスクや数学・科学推論に優れる性能を実現した。同社はその訓練プロセスから得られた教訓を共有している。

Microsoft Research·3月5日·★★★★

CVPR 2026採択結果発表、テンセントの混元モデル関連論文25本以上が選出

テンセントは、2026年の国際会議CVPRにおいて、混元モデルに関する論文25本以上が採択されたと発表した。同会議は人工知能とコンピュータビジョンの主要な場であり、多様な研究が発表される。

腾讯混元·3月4日·★★★★

NVIDIA GPUアクセラレーテッドエンドポイントを使用したQwen3.5 VLMによるネイティブマルチモーダルエージェントの開発

Alibabaが約4000億パラメータのネイティブマルチモーダルエージェント向けに設計されたオープンソースQwen3.5シリーズを発表した。

NVIDIA Developer Blog·2月28日·★★★★

Google、AI機能を追加したNano Banana 2をリリース

Googleが最新モデル「Nano Banana 2」を発表。Geminiの知識ベースを活用し、ウェブ検索からのリアルタイム情報と画像へのアクセスを提供し、より正確な主題描写を可能にした。

AI Business·2月28日

AnthropicがVerceptを買収し、Claudeのコンピュータ画面読み取り・操作能力を強化

Anthropicはスタートアップ企業Verceptを買収し、同社の画面認識モデル「VyUI」を活用してAIアシスタント「Claude」のコンピュータ画面の読み取りと操作能力を向上させる。

The Decoder·2月27日·★★★★

Googleがより高速な画像生成を実現するNano Banana 2モデルを発表

GoogleがNano Banana 2モデルを発表し、GeminiアプリとAIモードのデフォルトモデルとして採用した。同モデルは画像生成の速度向上を特徴とする。

TechCrunch AI·2月27日·★★★★

GoogleがAIクリエイティブスタジオ「Flow」を新機能と統合機能で再始動

GoogleがAIクリエイティブスタジオ「Flow」を新機能と統合機能を追加して再リリースし、AIを活用したコンテンツ制作ツールの進化を示しています。

The Decoder·2月26日·★★★★

アドビの新Firefly「Quick Cut」ツール、テキストプロンプトから生映像をラフ編集に変換

アドビのFireflyが新機能「Quick Cut」を追加。テキストプロンプトから生映像を自動でラフ編集できるようになり、映像編集の効率化が期待される。

The Decoder·2月26日·★★★★

AIが細胞生物学における全体像の把握を支援

AIを活用した手法により、細胞の包括的情報を提供することで、科学者が疾患メカニズムをより深く理解し、実験計画を立てるのを支援する。

MIT ML News·2月25日·★★★★

AnthropicがVerceptを買収しClaudeのコンピュータ利用能力を向上

AnthropicがVerceptを買収し、AIアシスタントClaudeのコンピュータ操作能力を強化。AIの実用性向上を目指す。

Anthropic News·2月25日·★★★★

Amazon Rekognition、Amazon Neptune、Amazon Bedrockを使用したインテリジェントな写真検索システムの構築

AWS CDKを活用し、Amazon Rekognitionで顔・物体検出、Amazon Neptuneで関係性マッピング、Amazon BedrockでAIキャプション生成を統合した包括的な写真検索システムの構築方法を紹介。

AWS Machine Learning Blog·2月25日·★★★★

音楽生成AI「ProducerAI」がGoogle Labsに参加

Wyclef Jeanが新曲でGoogleのAI音楽ツールを使用。ProducerAIがGoogle Labsに加わり、AIによる音楽制作の可能性を示す。

TechCrunch AI·2月25日·★★★★

ParticleのAIニュースアプリがポッドキャストから興味深いクリップを抽出

AIニュースアプリParticleがポッドキャストから重要な瞬間を抽出し、関連記事と共に短く関連性の高いクリップを即座に再生できる機能を追加しました。

TechCrunch AI·2月24日·★★★★

AI Gatewayによる動画生成

AI Gatewayが動画生成機能を追加し、写真のようにリアルな画質と同期した音声を持つ映画的な動画を作成できるようになった。AI SDK 6を通じて、テキストや画像と同じインターフェースでプログラム的に動画を生成可能。

Vercel Blog·2月19日·★★★★

なぜ12年前の予測論文は時代の試練に耐え続けているのか

アマゾン研究者が2014年に発表したラテンアメリカの社会不安予測論文が、2025年KDDで「時代を超えた価値賞」を受賞した。

Amazon Science·2月17日·★★★★

Claude Sonnet 4.6の紹介

Claude Sonnet 4.6の新バージョンがリリースされました。AIモデルの性能向上と新機能を提供します。

Anthropic News·2月17日·★★★★

「思考」がより深く、生成がより正確に｜Seedream 5.0 Lite リリース

バイトダンスがSeedream 5.0 Liteをリリースし、理解・推論・生成能力を全面的に向上させた。

字节跳动Seed·2月13日·★★★★

DagsterとMetaxyによるMLパイプラインのサンプルレベルバージョン管理

Metaxyを使用して、Dagster上でサンプルレベルの粒度を持つマルチモーダルデータパイプラインを構築する方法を紹介します。

Dagster Blog·2月13日

Seedance 2.0 正式リリース

バイトダンスが多モーダル音声・映像連合生成モデル「Seedance 2.0」を発表し、複雑な動き表現でSOTAを達成した。

字节跳动Seed·2月12日·★★★★

R²D²：NVIDIA Isaac Labによるマルチモーダルロボット学習の拡張

NVIDIA Isaac Labが開発したR²D²は、マルチモーダルロボット学習を拡張する技術で、ロボットの知能向上を目指しています。

NVIDIA Developer Blog·2月11日·★★★★

予測的逆動力学モデルによる模倣学習の再考

予測的逆動力学モデルは、次の状態を予測することで曖昧さを減らし、少ないデモンストレーションで標準的な行動模倣を上回る性能を発揮する理由を探る研究。

Microsoft Research·2月6日

Nemotronを使用したRAG向け文書処理パイプラインの構築方法

NVIDIAが、複雑なPDFの解析、ネストされた表の抽出、チャート内データの認識を可能にする、RAG（検索拡張生成）向け文書処理パイプラインの構築方法を紹介している。

NVIDIA Developer Blog·2月5日·★★★★

← 前へ2 / 3次へ →