#マルチモーダル のAIニュース
99件の記事
Nvidiaが288GPUでMLPerf新記録を樹立、AMDとIntelは異なる戦いに注力
Nvidiaは288基のGPUでMLPerfベンチマークの新記録を達成した。一方、AMDとIntelは異なる評価指標を重視しており、直接比較は困難である。最新のMLPerfでは初めてマルチモーダルモデルと動画モデルが導入された。
PDFの図表はRAGで扱えるのか?6つの方法で検証して分かった“現実的な最適解”
本記事は、PDF内の図表をRAGで扱うための6つの手法(テキスト抽出・LLMによるOCR・マルチモーダルEmbedding等)を精度・コスト・処理時間の観点から比較検証し、実務で使える現実的な最適解を整理した。
OpenAI、音声エージェントAPI発表
GPT-Realtime-1.5で音声エージェント構築可能に
Cohere、音声認識ベンチマークでトップのオープンソースモデルをリリース
Cohereがオープンソースの音声認識モデルを発表し、ベンチマークでOpenAIのWhisperを含む全ての競合を上回った。
Gemini 3.1 Flash LiveはGoogleの最も自然なAI音声モデル
GoogleがGemini 3.1 Flash Liveを発表し、より高速で自然な音声会話を実現した。開発者は品質と速度を調整でき、価格はGemini 2.5と同等に維持される。
Gemini 3.1 Flash Live 配信開始
Gemini LiveとGoogle検索でGemini 3.1 Flash Liveの提供開始
Gemini Live 3.1 Flash 提供開始
Google AIがGemini Live 3.1 Flashの提供を開始。AI開発者向け新機能。
Gemini 3.1 Flash Live発表
Google DeepMindが新しい音声モデルを発表。より自然な会話を実現。
Gemini 3.1 Flash Live発表
Google AIが最高品質の音声モデルを本日リリース
ByteDanceの新AI動画生成モデル「Dreamina Seedance 2.0」がCapCutに搭載
ByteDanceがAI動画生成モデル「Dreamina Seedance 2.0」をCapCutに搭載した。同モデルは実在人物の顔や無許可知的財産からの動画生成に対する保護機能を内蔵している。
Cohereが文字起こし専用のオープンソース音声モデルを発表
Cohereが20億パラメータの軽量なオープンソース音声モデルを公開した。このモデルは消費者向けGPUで自己ホスト可能で、現在14言語をサポートしている。
Ego2Webベンチマーク発表
エゴセントリック動画に基づくWebエージェント評価基準の新論文
Google、権利を有するデータで学習したAI音楽生成モデル「Lyria 3 Pro」を発表
GoogleがAI音楽生成モデル「Lyria 3 Pro」を発表した。同モデルは最大3分間の楽曲を生成でき、権利を有するデータで学習している点が特徴で、著作権問題を抱える競合他社と差別化している。
SpecEyes: エージェント型マルチモーダルLLMの高速化
推測的知覚と計画によるエージェント型マルチモーダルLLMの高速化に関する論文発表
Lyria 3 Proモデル公開
Google AIがLyria 3 Proモデルのアクセス方法を発表
Lyria 3 Proで長尺トラック作成可能に
Google DeepMindのLyria 3 Proが長尺音楽トラック作成機能を追加
OpenAI、SoraアプリとAPIを終了もChatGPT内でビデオモデル存続を示唆
OpenAIはSoraアプリとAPIを終了し、ディズニーは昨年12月締結の10億ドル契約から撤退した。同社はビデオモデルがChatGPT内で存続する可能性を示唆している。
Google TVの新Gemini機能、スポーツチームなどの最新情報をファンに提供
GoogleがGoogle TVにGemini搭載の3つの新機能(視覚的応答、詳細分析、スポーツ要約)を追加し、ユーザーがスポーツチームなどの情報を最新状態に保てるようにした。
Google DeepmindのGemini 3.1 Flash-Liteがほぼリアルタイムでウェブサイトを生成
GoogleがGemini 3.1 Flash-Liteのデモで、完全なウェブサイトをリアルタイムで生成する機能を示した。高速で低コストだが、有用性については議論がある。
ジャンプして遊ぶ:GeminiとMediaPipeでの構築
Googleは、Gemini CanvasとMediaPipe Pose Landmarkerを使用して、モーション制御ゲーム開発のワークフローを効率化する方法を発表した。開発者はGoogle AI Studioで低遅延モデルや安定したトラッキングポイントを最適化できる。
ChatGPTが商品画像・価格・比較機能を備えたショッピングプラットフォームに変貌、ただし決済機能はなし
OpenAIはChatGPTに商品画像・価格表示・比較機能を追加し、視覚的ショッピング機能を導入する一方、自社決済システムを廃止して決済を小売業者に委ねる。
NVIDIA Nemotron 3エージェントの構築:推論、マルチモーダルRAG、音声、安全性
NVIDIAが、計画・推論・検索・安全制御を専門モデルが連携して処理するエージェントAIシステム「Nemotron 3」を開発した。
ChatGPTにおける製品発見機能の強化
ChatGPTは、Agentic Commerce Protocolを活用して、視覚的に没入感のあるショッピング体験を提供し、製品発見、並列比較、販売業者統合を可能にした。
音声エージェント評価の新フレームワーク(EVA)
研究者らが音声エージェントの性能評価のための新フレームワーク「EVA」を発表した。このフレームワークは、音声AIの能力を体系的に測定する標準化された評価手法を提供する。
SafetyPairs: 反事実的画像生成による安全性クリティカルな画像特徴の分離
ICLR 2026ワークショップで採択された論文では、侮辱的なジェスチャーなどの微妙な変化が画像の安全性を大きく変える問題に対し、既存のデータセットの曖昧さを克服するため、反事実的画像生成を用いて安全性クリティカルな特徴を分離する手法を提案している。
Step Plan養蝦套餐がリリース、開発者コミュニティ向け半額キャンペーン開始
階躍星辰がOpenClaw/Codingユーザー向け月額サブスクリプション「Step Plan」を発表。Step 3.5 Flashモデルを搭載した4段階のプランを提供し、開発者コミュニティ向けに半額割引を実施。
Soraで安全に創造する
OpenAIは、最先端のビデオモデルと新たなソーシャル創作プラットフォームがもたらす安全上の課題に対処するため、安全性を基盤としたSora 2とSoraアプリを構築した。同社のアプローチは具体的な保護策に基づいている。
マイクロソフトの超知能チームがテキストから画像を生成するMAI-Image-2をリリース
マイクロソフトの超知能チームが、テキストから画像を生成するMAI-Image-2を初の製品として発表した。同製品はマイクロソフトの全製品に展開され、最終的にはAPI経由でも利用可能となる。
Google Labs、Stitchをテキストからユーザーインターフェースを生成する完全なAIデザインプラットフォームに進化
GoogleがStitchを、デザインやコーディングスキル不要でテキストや音声入力をクリック可能なプロトタイプに変換する完全なAIデザインプラットフォームに進化させた。
Google Deepmind、Gemini APIをマルチツール連携とコンテキスト循環でアップグレード
Google DeepmindはGemini APIを拡張し、開発者が単一リクエストで複数ツールを連携できる「マルチツール連鎖」と、Google Mapsをデータソースとして活用できる「コンテキスト循環」機能を追加した。
2026年Vercel AIアクセラレーター参加企業を紹介
Vercel社は、AIスタートアップ向けアクセラレータープログラムの2026年参加企業39社を発表した。同社はAIインフラ基盤を構築し、起業家が製品開発に集中できる環境を提供している。
GPT-5.4 miniおよびnano、7万6000枚の写真記述を52ドルで実現
OpenAIがGPT-5.4 miniとnanoを発表。新モデルは従来モデルより高性能で高速。価格はGPT-5.4-miniが入力100万トークンあたり0.15ドル、出力100万トークンあたり0.60ドル。
OpenAI新モデル発表
OpenAIがコーディング・マルチモーダル対応の新モデルを発表
Ropedia Xperience-10M公開
大規模なエゴセントリックマルチモーダルデータセットがHugging Faceで公開
Googleのパーソナルインテリジェンス機能が全米ユーザーに拡大
Googleは、AIアシスタントがGmailやGoogleフォトなどのGoogleエコシステムを活用して、より個別化された回答を提供する「パーソナルインテリジェンス」機能を全米ユーザーに拡大した。
Holotron-12B - 高スループットコンピュータ使用エージェント
Holotron-12Bは高スループットのコンピュータ使用エージェントであり、ユーザーの代わりに効率的にコンピュータ操作を実行するAIシステムです。
GPT-5.4 miniおよびnanoの紹介
OpenAIがGPT-5.4の小型高速版「mini」と「nano」を発表。コーディング、ツール使用、マルチモーダル推論、大量API処理向けに最適化されている。
AMES:後期相互作用検索による近似マルチモーダルエンタープライズ検索
研究者らがAMESを発表。テキスト・画像・動画を共有表現空間に埋め込み、アーキテクチャ再設計なしで生産環境のエンタープライズ検索エンジンにマルチモーダル後期相互作用検索を導入可能と実証した。
Mistral Small 4の紹介
Mistralが、推論モデルMagistral、マルチモーダルモデルPixtral、エージェントコーディングモデルDevstralの機能を統合した119Bパラメータの新モデル「Mistral Small 4」をApache 2ライセンスでリリースした。
Sora 2動画API活用事例
OpenAIのSora 2を活用した動画APIの顧客事例を紹介
マルチモーダルOCR新モデル発表
文書解析ベンチマークで2位のマルチモーダルOCRモデルが発表されました
AIコンサルタントがChatGPT、AlphaFold、Grokを活用して愛犬の癌治療法を発見
オーストラリアのAIコンサルタントが、ChatGPT、AlphaFold、Grokを組み合わせて、愛犬の不治の癌に対する治療法の可能性を発見した。OpenAIのグレッグ・ブロックマンらがこの事例をAIの実用性の証として共有し話題となった。
ハリウッド著作権苦情により、バイトダンスがAI動画生成ツールSeedance 2.0の世界展開を棚上げ
バイトダンスはAI動画モデルSeedance 2.0を3月中旬に世界展開する予定だったが、ハリウッド大手スタジオの集団的な反対により延期された。これはAI生成動画の説得力が増していることを示している。
GeminiモデルでGoogle Mapsを強化
GoogleがGeminiモデルをGoogle Mapsに統合、新機能を公開
意味的類似性を超えて:NVIDIA NeMo Retrieverの汎用化可能なエージェント型検索パイプラインの紹介
NVIDIAが、従来の意味的類似性検索を超える汎用化可能なエージェント型検索パイプライン「NeMo Retriever」を発表した。
OpenAI新Video API発表
スタジオ・ブランド向け動画生成効率化の新機能
OpenAI新Video API発表
スタジオ・ブランド向け効率的な動画生成APIの新機能
Sora 2動画API新機能発表
OpenAIがSora 2を活用した動画API新機能を発表
Claudeがチャート作成機能を追加
Claudeが対話型チャート・図表作成機能をベータ公開
LiTo: 表面ライトフィールドのトークン化
研究者らが、物体の3D形状と視点依存の外観を同時にモデル化する3D潜在表現を提案した。従来手法は3D形状再構成か視点非依存の外観予測に焦点を当てていたため、現実的な視点依存効果の再現が困難だった。本手法はRGB-D画像が表面ライトフィールドのサンプルを提供する点を活用し、そのランダムサブサンプルをコンパクトな潜在ベクトルセットに符号化することで、両方を表現することを学習する。