#マルチモーダルのAIニュース

99件の記事

Nvidiaが288GPUでMLPerf新記録を樹立、AMDとIntelは異なる戦いに注力

Nvidiaは288基のGPUでMLPerfベンチマークの新記録を達成した。一方、AMDとIntelは異なる評価指標を重視しており、直接比較は困難である。最新のMLPerfでは初めてマルチモーダルモデルと動画モデルが導入された。

The Decoder·4月2日

PDFの図表はRAGで扱えるのか？6つの方法で検証して分かった“現実的な最適解”

本記事は、PDF内の図表をRAGで扱うための6つの手法（テキスト抽出・LLMによるOCR・マルチモーダルEmbedding等）を精度・コスト・処理時間の観点から比較検証し、実務で使える現実的な最適解を整理した。

HEROZ Tech Blog·3月31日

OpenAI、音声エージェントAPI発表

GPT-Realtime-1.5で音声エージェント構築可能に

X: OpenAI Developers·3月28日

Cohere、音声認識ベンチマークでトップのオープンソースモデルをリリース

Cohereがオープンソースの音声認識モデルを発表し、ベンチマークでOpenAIのWhisperを含む全ての競合を上回った。

The Decoder·3月28日·★★★★

Gemini 3.1 Flash LiveはGoogleの最も自然なAI音声モデル

GoogleがGemini 3.1 Flash Liveを発表し、より高速で自然な音声会話を実現した。開発者は品質と速度を調整でき、価格はGemini 2.5と同等に維持される。

The Decoder·3月27日

Gemini 3.1 Flash Live 配信開始

Gemini LiveとGoogle検索でGemini 3.1 Flash Liveの提供開始

X: Google DeepMind·3月27日

Gemini Live 3.1 Flash 提供開始

Google AIがGemini Live 3.1 Flashの提供を開始。AI開発者向け新機能。

X: Google AI·3月27日

Gemini 3.1 Flash Live発表

Google DeepMindが新しい音声モデルを発表。より自然な会話を実現。

X: Google DeepMind·3月27日

Gemini 3.1 Flash Live発表

Google AIが最高品質の音声モデルを本日リリース

X: Google AI·3月27日·★★★★

ByteDanceの新AI動画生成モデル「Dreamina Seedance 2.0」がCapCutに搭載

ByteDanceがAI動画生成モデル「Dreamina Seedance 2.0」をCapCutに搭載した。同モデルは実在人物の顔や無許可知的財産からの動画生成に対する保護機能を内蔵している。

TechCrunch AI·3月27日

Cohereが文字起こし専用のオープンソース音声モデルを発表

Cohereが20億パラメータの軽量なオープンソース音声モデルを公開した。このモデルは消費者向けGPUで自己ホスト可能で、現在14言語をサポートしている。

TechCrunch AI·3月26日

Ego2Webベンチマーク発表

エゴセントリック動画に基づくWebエージェント評価基準の新論文

X: AK·3月26日

Google、権利を有するデータで学習したAI音楽生成モデル「Lyria 3 Pro」を発表

GoogleがAI音楽生成モデル「Lyria 3 Pro」を発表した。同モデルは最大3分間の楽曲を生成でき、権利を有するデータで学習している点が特徴で、著作権問題を抱える競合他社と差別化している。

The Decoder·3月26日·★★★★

SpecEyes: エージェント型マルチモーダルLLMの高速化

推測的知覚と計画によるエージェント型マルチモーダルLLMの高速化に関する論文発表

X: AK·3月26日

Lyria 3 Proモデル公開

Google AIがLyria 3 Proモデルのアクセス方法を発表

X: Google AI·3月26日

Lyria 3 Proで長尺トラック作成可能に

Google DeepMindのLyria 3 Proが長尺音楽トラック作成機能を追加

X: Google DeepMind·3月26日

OpenAI、SoraアプリとAPIを終了もChatGPT内でビデオモデル存続を示唆

OpenAIはSoraアプリとAPIを終了し、ディズニーは昨年12月締結の10億ドル契約から撤退した。同社はビデオモデルがChatGPT内で存続する可能性を示唆している。

The Decoder·3月25日

Google TVの新Gemini機能、スポーツチームなどの最新情報をファンに提供

GoogleがGoogle TVにGemini搭載の3つの新機能（視覚的応答、詳細分析、スポーツ要約）を追加し、ユーザーがスポーツチームなどの情報を最新状態に保てるようにした。

TechCrunch AI·3月25日

Google DeepmindのGemini 3.1 Flash-Liteがほぼリアルタイムでウェブサイトを生成

GoogleがGemini 3.1 Flash-Liteのデモで、完全なウェブサイトをリアルタイムで生成する機能を示した。高速で低コストだが、有用性については議論がある。

The Decoder·3月25日

ジャンプして遊ぶ：GeminiとMediaPipeでの構築

Googleは、Gemini CanvasとMediaPipe Pose Landmarkerを使用して、モーション制御ゲーム開発のワークフローを効率化する方法を発表した。開発者はGoogle AI Studioで低遅延モデルや安定したトラッキングポイントを最適化できる。

Google Developers AI·3月25日

ChatGPTが商品画像・価格・比較機能を備えたショッピングプラットフォームに変貌、ただし決済機能はなし

OpenAIはChatGPTに商品画像・価格表示・比較機能を追加し、視覚的ショッピング機能を導入する一方、自社決済システムを廃止して決済を小売業者に委ねる。

The Decoder·3月25日·★★★★

NVIDIA Nemotron 3エージェントの構築：推論、マルチモーダルRAG、音声、安全性

NVIDIAが、計画・推論・検索・安全制御を専門モデルが連携して処理するエージェントAIシステム「Nemotron 3」を開発した。

NVIDIA Developer Blog·3月25日·★★★★

ChatGPTにおける製品発見機能の強化

ChatGPTは、Agentic Commerce Protocolを活用して、視覚的に没入感のあるショッピング体験を提供し、製品発見、並列比較、販売業者統合を可能にした。

OpenAI News·3月24日·★★★★

音声エージェント評価の新フレームワーク（EVA）

研究者らが音声エージェントの性能評価のための新フレームワーク「EVA」を発表した。このフレームワークは、音声AIの能力を体系的に測定する標準化された評価手法を提供する。

Hugging Face Blog·3月24日·★★★★

SafetyPairs: 反事実的画像生成による安全性クリティカルな画像特徴の分離

ICLR 2026ワークショップで採択された論文では、侮辱的なジェスチャーなどの微妙な変化が画像の安全性を大きく変える問題に対し、既存のデータセットの曖昧さを克服するため、反事実的画像生成を用いて安全性クリティカルな特徴を分離する手法を提案している。

Apple Machine Learning·3月24日·★★★★

Step Plan養蝦套餐がリリース、開発者コミュニティ向け半額キャンペーン開始

階躍星辰がOpenClaw/Codingユーザー向け月額サブスクリプション「Step Plan」を発表。Step 3.5 Flashモデルを搭載した4段階のプランを提供し、開発者コミュニティ向けに半額割引を実施。

阶跃星辰·3月23日

Soraで安全に創造する

OpenAIは、最先端のビデオモデルと新たなソーシャル創作プラットフォームがもたらす安全上の課題に対処するため、安全性を基盤としたSora 2とSoraアプリを構築した。同社のアプローチは具体的な保護策に基づいている。

OpenAI News·3月23日

マイクロソフトの超知能チームがテキストから画像を生成するMAI-Image-2をリリース

マイクロソフトの超知能チームが、テキストから画像を生成するMAI-Image-2を初の製品として発表した。同製品はマイクロソフトの全製品に展開され、最終的にはAPI経由でも利用可能となる。

The Decoder·3月20日

Google Labs、Stitchをテキストからユーザーインターフェースを生成する完全なAIデザインプラットフォームに進化

GoogleがStitchを、デザインやコーディングスキル不要でテキストや音声入力をクリック可能なプロトタイプに変換する完全なAIデザインプラットフォームに進化させた。

The Decoder·3月19日·★★★★

Google Deepmind、Gemini APIをマルチツール連携とコンテキスト循環でアップグレード

Google DeepmindはGemini APIを拡張し、開発者が単一リクエストで複数ツールを連携できる「マルチツール連鎖」と、Google Mapsをデータソースとして活用できる「コンテキスト循環」機能を追加した。

The Decoder·3月19日·★★★★

2026年Vercel AIアクセラレーター参加企業を紹介

Vercel社は、AIスタートアップ向けアクセラレータープログラムの2026年参加企業39社を発表した。同社はAIインフラ基盤を構築し、起業家が製品開発に集中できる環境を提供している。

Vercel Blog·3月18日

GPT-5.4 miniおよびnano、7万6000枚の写真記述を52ドルで実現

OpenAIがGPT-5.4 miniとnanoを発表。新モデルは従来モデルより高性能で高速。価格はGPT-5.4-miniが入力100万トークンあたり0.15ドル、出力100万トークンあたり0.60ドル。

Simon Willison Blog·3月18日·★★★★

OpenAI新モデル発表

OpenAIがコーディング・マルチモーダル対応の新モデルを発表

X: Windsurf·3月18日

Ropedia Xperience-10M公開

大規模なエゴセントリックマルチモーダルデータセットがHugging Faceで公開

X: AK·3月18日

Googleのパーソナルインテリジェンス機能が全米ユーザーに拡大

Googleは、AIアシスタントがGmailやGoogleフォトなどのGoogleエコシステムを活用して、より個別化された回答を提供する「パーソナルインテリジェンス」機能を全米ユーザーに拡大した。

TechCrunch AI·3月18日

Holotron-12B - 高スループットコンピュータ使用エージェント

Holotron-12Bは高スループットのコンピュータ使用エージェントであり、ユーザーの代わりに効率的にコンピュータ操作を実行するAIシステムです。

Hugging Face Blog·3月17日·★★★★

GPT-5.4 miniおよびnanoの紹介

OpenAIがGPT-5.4の小型高速版「mini」と「nano」を発表。コーディング、ツール使用、マルチモーダル推論、大量API処理向けに最適化されている。

OpenAI News·3月17日·★★★★

AMES：後期相互作用検索による近似マルチモーダルエンタープライズ検索

研究者らがAMESを発表。テキスト・画像・動画を共有表現空間に埋め込み、アーキテクチャ再設計なしで生産環境のエンタープライズ検索エンジンにマルチモーダル後期相互作用検索を導入可能と実証した。

Apple Machine Learning·3月17日·★★★★

Mistral Small 4の紹介

Mistralが、推論モデルMagistral、マルチモーダルモデルPixtral、エージェントコーディングモデルDevstralの機能を統合した119Bパラメータの新モデル「Mistral Small 4」をApache 2ライセンスでリリースした。

Simon Willison Blog·3月17日·★★★★

Sora 2動画API活用事例

OpenAIのSora 2を活用した動画APIの顧客事例を紹介

X: OpenAI Developers·3月17日

マルチモーダルOCR新モデル発表

文書解析ベンチマークで2位のマルチモーダルOCRモデルが発表されました

X: AK·3月16日

AIコンサルタントがChatGPT、AlphaFold、Grokを活用して愛犬の癌治療法を発見

オーストラリアのAIコンサルタントが、ChatGPT、AlphaFold、Grokを組み合わせて、愛犬の不治の癌に対する治療法の可能性を発見した。OpenAIのグレッグ・ブロックマンらがこの事例をAIの実用性の証として共有し話題となった。

The Decoder·3月16日

ハリウッド著作権苦情により、バイトダンスがAI動画生成ツールSeedance 2.0の世界展開を棚上げ

バイトダンスはAI動画モデルSeedance 2.0を3月中旬に世界展開する予定だったが、ハリウッド大手スタジオの集団的な反対により延期された。これはAI生成動画の説得力が増していることを示している。

The Decoder·3月15日·★★★★

GeminiモデルでGoogle Mapsを強化

GoogleがGeminiモデルをGoogle Mapsに統合、新機能を公開

X: Google AI·3月14日·★★★★

意味的類似性を超えて：NVIDIA NeMo Retrieverの汎用化可能なエージェント型検索パイプラインの紹介

NVIDIAが、従来の意味的類似性検索を超える汎用化可能なエージェント型検索パイプライン「NeMo Retriever」を発表した。

Hugging Face Blog·3月14日·★★★★

OpenAI新Video API発表

スタジオ・ブランド向け動画生成効率化の新機能

X: OpenAI Developers·3月13日·★★★★

OpenAI新Video API発表

スタジオ・ブランド向け効率的な動画生成APIの新機能

X: OpenAI Developers·3月13日·★★★★

Sora 2動画API新機能発表

OpenAIがSora 2を活用した動画API新機能を発表

X: OpenAI Developers·3月13日·★★★★

Claudeがチャート作成機能を追加

Claudeが対話型チャート・図表作成機能をベータ公開

X: Claude·3月13日

LiTo: 表面ライトフィールドのトークン化

研究者らが、物体の3D形状と視点依存の外観を同時にモデル化する3D潜在表現を提案した。従来手法は3D形状再構成か視点非依存の外観予測に焦点を当てていたため、現実的な視点依存効果の再現が困難だった。本手法はRGB-D画像が表面ライトフィールドのサンプルを提供する点を活用し、そのランダムサブサンプルをコンパクトな潜在ベクトルセットに符号化することで、両方を表現することを学習する。

Apple Machine Learning·3月12日·★★★★

1 / 2次へ →

#マルチモーダル のAIニュース

Nvidiaが288GPUでMLPerf新記録を樹立、AMDとIntelは異なる戦いに注力

PDFの図表はRAGで扱えるのか？6つの方法で検証して分かった“現実的な最適解”

OpenAI、音声エージェントAPI発表

Cohere、音声認識ベンチマークでトップのオープンソースモデルをリリース

Gemini 3.1 Flash LiveはGoogleの最も自然なAI音声モデル

Gemini 3.1 Flash Live 配信開始

Gemini Live 3.1 Flash 提供開始

Gemini 3.1 Flash Live発表

Gemini 3.1 Flash Live発表

ByteDanceの新AI動画生成モデル「Dreamina Seedance 2.0」がCapCutに搭載

Cohereが文字起こし専用のオープンソース音声モデルを発表

Ego2Webベンチマーク発表

Google、権利を有するデータで学習したAI音楽生成モデル「Lyria 3 Pro」を発表

SpecEyes: エージェント型マルチモーダルLLMの高速化

Lyria 3 Proモデル公開

Lyria 3 Proで長尺トラック作成可能に

OpenAI、SoraアプリとAPIを終了もChatGPT内でビデオモデル存続を示唆

Google TVの新Gemini機能、スポーツチームなどの最新情報をファンに提供

Google DeepmindのGemini 3.1 Flash-Liteがほぼリアルタイムでウェブサイトを生成

ジャンプして遊ぶ：GeminiとMediaPipeでの構築

ChatGPTが商品画像・価格・比較機能を備えたショッピングプラットフォームに変貌、ただし決済機能はなし

NVIDIA Nemotron 3エージェントの構築：推論、マルチモーダルRAG、音声、安全性

ChatGPTにおける製品発見機能の強化

音声エージェント評価の新フレームワーク（EVA）

SafetyPairs: 反事実的画像生成による安全性クリティカルな画像特徴の分離

Step Plan養蝦套餐がリリース、開発者コミュニティ向け半額キャンペーン開始

Soraで安全に創造する

マイクロソフトの超知能チームがテキストから画像を生成するMAI-Image-2をリリース

Google Labs、Stitchをテキストからユーザーインターフェースを生成する完全なAIデザインプラットフォームに進化

Google Deepmind、Gemini APIをマルチツール連携とコンテキスト循環でアップグレード

2026年Vercel AIアクセラレーター参加企業を紹介

GPT-5.4 miniおよびnano、7万6000枚の写真記述を52ドルで実現

OpenAI新モデル発表

Ropedia Xperience-10M公開

Googleのパーソナルインテリジェンス機能が全米ユーザーに拡大

Holotron-12B - 高スループットコンピュータ使用エージェント

GPT-5.4 miniおよびnanoの紹介

AMES：後期相互作用検索による近似マルチモーダルエンタープライズ検索

Mistral Small 4の紹介

Sora 2動画API活用事例

マルチモーダルOCR新モデル発表

AIコンサルタントがChatGPT、AlphaFold、Grokを活用して愛犬の癌治療法を発見

ハリウッド著作権苦情により、バイトダンスがAI動画生成ツールSeedance 2.0の世界展開を棚上げ

GeminiモデルでGoogle Mapsを強化

意味的類似性を超えて：NVIDIA NeMo Retrieverの汎用化可能なエージェント型検索パイプラインの紹介

OpenAI新Video API発表

OpenAI新Video API発表

Sora 2動画API新機能発表

Claudeがチャート作成機能を追加

LiTo: 表面ライトフィールドのトークン化

#マルチモーダルのAIニュース