#マルチモーダルai のAIニュース
103件の記事
マイクロソフト、3つの新しい基盤モデルでAIライバルに挑む
マイクロソフトは、音声をテキストに変換し、音声や画像を生成できる3つの新しい基盤モデルを発表した。同社は6か月前に結成されたグループを通じてこれらのモデルをリリースした。
マイクロソフトのMAI-Transcribe-1、前モデルより2.5倍高速で1時間あたり0.36ドルで音声文字起こしを提供
マイクロソフトがMAI-Transcribe-1を発表した。このモデルは、25言語で背景ノイズがあっても正確に音声をテキストに変換し、前モデルより2.5倍高速で1時間あたり0.36ドルのコストで動作する。マイクロソフトは既に自社製品でこのモデルを使用している。
Gemma 4を歓迎:デバイス上のフロンティアマルチモーダルインテリジェンス
Googleがデバイス上で動作するマルチモーダルAIモデル「Gemma 4」を発表した。同モデルは画像・音声・テキストを統合処理でき、クラウド依存を減らすオンデバイスAIの進展を示している。
Wan2.7-Image:人物はよりリアルに、文字はより安定に、色はより正確に
通義実験室がWan2.7-Imageを発表し、画像生成において人物のリアルさ向上、文字の安定性向上、色の正確性向上を実現した新たな手法を提供した。
Granite 4.0 3B Vision:企業文書向けのコンパクトなマルチモーダルAI
IBMが企業文書向けに開発したGranite 4.0 3B Visionは、テキストと画像を同時処理できる小型マルチモーダルAIモデルで、文書解析の効率化を実現する。
AIモデルは見たことのない画像を自信満々に描写し、ベンチマークはその問題を見逃している
スタンフォード大学の研究によると、GPT-5やGemini 3 ProなどのマルチモーダルAIモデルは、画像が提供されていない場合でも詳細な画像描写や医療診断を生成する。一般的なベンチマークはこの問題を隠蔽している。
Metaの新AIモデルが画像・音声・音声に対する脳の反応を予測
Metaが開発したAIモデルは、画像・音声・音声に対する人間の脳の反応を予測する。テストでは、その予測は実際の個人の脳スキャンよりも典型的な脳反応に近い結果を示した。
Mistralの初のオープンウェイトTTSモデル「Voxtral」、3秒の音声から9言語で声をクローン
フランスのAIスタートアップMistralが、9言語をサポートし3秒の音声から声をクローンできる初のテキスト読み上げモデル「Voxtral」をリリースした。
Gemini 3.1 Flash Live発表
最高品質の音声モデル、技術的進歩を発表
NVIDIA VLM展示会
ISC West 2026でNVIDIAとパートナーがVLMを展示
SageMaker Unified StudioとS3を用いた非構造化データによるLLMファインチューニングの加速
AWSがSageMaker Unified StudioとS3の連携を発表し、S3に保存された非構造化データを機械学習やデータ分析に活用する方法を紹介した。
Googleが「Search Live」を全世界で展開、スマホカメラをリアルタイムAI検索ツールに
Googleが「Search Live」を200か国以上で展開開始した。この機能はユーザーが音声とカメラを使ってGoogle検索と対話できるようにする。
Gemini 3.1 Flash Live:音声AIをより自然で信頼性の高いものに
Googleが最新音声モデル「Gemini 3.1 Flash Live」を発表し、精度向上と低遅延化により音声インタラクションをより流暢で自然なものにした。
ConntourがGeneral CatalystとYCから700万ドルを調達し、セキュリティ映像システム向けAI検索エンジンを構築
Conntourは、セキュリティチームが自然言語でカメラ映像を検索し、任意の物体・人物・状況を発見できるAIモデルを開発した。同社はGeneral CatalystとYCから700万ドルの資金調達に成功した。
TRIBE v2が脳反応を予測
再学習なしで未知の個人の脳反応を予測可能なAIモデル
MetaがTRIBE v2を発表
トリモーダル脳エンコーダー基盤モデルの新バージョンを公開
Amazon Bedrockのマルチモーダルモデルで大規模な動画分析を実現
Amazonは、Amazon Bedrockのマルチモーダル基盤モデルを用いて、大量の動画から文脈や意味を理解し、洞察を抽出するスケーラブルなソリューションを提供している。
GoogleがLyria 3 Pro音楽生成モデルを発表
GoogleがLyria 3 Proを発表した。このアップグレードされた音楽モデルは、より長く、よりカスタマイズ可能なトラックを生成し、Gemini、企業向け製品、その他のサービスでAI音楽ツールを拡大する。
Google AIがLyria 3をリリース
テキスト、画像、動画から歌詞付きトラックを作成可能に
Lyria 3 Pro:構造認識により長いトラックを作成可能に
GoogleはLyria 3 Proを発表し、構造認識機能により長い音楽トラックの生成を可能にした。また、Lyriaをより多くのGoogle製品やプラットフォームに導入する。
空間トークン生成による視覚言語モデル強化
Perceptio: 空間トークン生成で視覚言語モデルの知覚能力を向上させる新手法
DeepMindとAgile Robotsが研究提携
Gemini基盤モデルをロボット統合する新たな研究パートナーシップ
Luma AIのUni-1、GoogleのNano Banana画像優位性に対する初の真の挑戦者となる可能性
Luma AIがUni-1を発表した。同モデルは画像理解と生成を単一アーキテクチャで統合し、生成しながらプロンプトを推論する。OpenAIとGoogleへの挑戦となる可能性がある。
HopChain: マルチホップデータ合成
汎用的な視覚言語推論のための新しい手法を提案
コンピューターでClaudeを活用する
AnthropicがClaude AIをユーザーのローカルコンピューターで直接動作させる機能を発表した。これにより、データ処理のプライバシーと応答速度が向上する。
Xiaomiが3つのMiMo AIモデルを発表、エージェント・ロボット・音声を駆動
中国企業Xiaomiが、ソフトウェアの自律制御やブラウザでの買い物、将来的なロボット制御を可能にするAIエージェント構築を目指し、自社MiMoチームが3つのAIモデルを同時発表した。
Loc3R-VLM発表
言語ベースの3D推論モデルLoc3R-VLMの論文公開
動画編集の新手法発表
指示に基づく動画編集のための新技術「SAMA」を紹介
空間理解の新モデル発表
生成モデルによる暗黙的3D事前知識を活用したシーン理解の研究論文
Nemotron 3 Content Safety 4B:マルチモーダル・多言語コンテンツモデレーション
NVIDIAが、画像とテキストを同時に分析できるマルチモーダルAIモデル「Nemotron 3 Content Safety 4B」を発表した。このモデルは100言語に対応し、有害コンテンツの自動検出を可能にする。
データセンターへの攻撃、全サイズのQwen3.5、DeepSeekの華為戦略、Appleのマルチモーダルトークナイザー
AI業界では、データセンターへの攻撃懸念、Qwen3.5の全サイズ展開、DeepSeekの華為連携、Appleのマルチモーダルトークナイザー開発が進む。
GoogleのStitchとAI駆動開発の変革
GoogleはAIネイティブなプラットフォーム「Stitch」を発表した。同プラットフォームは、ユーザーがテキスト、画像、音声コマンドを使用してUIデザインを作成できるAIネイティブキャンバスを統合している。
MolmoPoint: VLM向け新手法
VLMsのポインティング精度向上のための新手法「Grounding Tokens」を提案
MolmoPoint: VLM向け新手法
VLMsのポインティング精度向上のための新手法「MolmoPoint」発表
マネーフォワード、Cursorのコーディングエージェントをプロダクト・デザイン・QA部門に導入
マネーフォワードがCursor社のAIコーディングエージェントをプロダクト開発・デザイン・品質保証部門に導入し、1,000人以上の従業員が日常的に利用している。
Mistralの新モデルSmall 4、128の専門家モジュールで高性能を発揮
Mistral AIがMistral Small 4をリリースした。同モデルは高速なテキスト応答、論理的推論、画像処理を統合し、128の専門家モジュールを搭載している。
階躍星辰の「最強ロブスター脳」が極氪8Xに搭載:今すぐ出発!
階躍星辰は、AIモデル「ロブスター脳」Step 3.5 Flashを吉利の新車両インテリジェントエージェント「スーパーEva」に統合し、極氪8Xで初めて搭載することを発表した。
TrajTok:軌跡トークンの学習により動画理解が向上
研究者らが、動画モデルの効率と拡張性を向上させるため、外部パイプラインに依存しない統合型トークナイザー「TrajTok」を提案した。
Memories AIがウェアラブルとロボティクスのための視覚的記憶層を構築中
Memories AIは、物理AI向けにビデオ記録された記憶を索引付け・検索できる大規模視覚記憶モデルを構築している。
RubiCap: ルーブリックに基づく強化学習による詳細な画像キャプション生成
研究者らは、高品質な画像キャプション生成の課題に対処するため、ルーブリックに基づく強化学習手法「RubiCap」を提案した。この手法は、多様性と汎化性を向上させ、大規模な注釈コストを削減することを目指している。
GPT-5.4画像エンコーダー修正
GPT-5.4の画像入力処理のバグ修正を実施
GeminiモデルでGoogle Mapsを進化
Google Mapsの機能向上にGeminiモデルを活用する取り組みを紹介
Googleが3つのNano Banana画像生成モデルの違いを説明
GoogleがNano Banana画像生成モデルの3種類の違いと使用場面を解説。低コストのNano Banana 2はPro版の95%の性能を持ち、生成前にWebから参考画像を自律的に検索可能。
動画推論モデルの屋外適用可能性
動画推論モデルの屋外環境での実用性に関する研究論文が発表されました。
Claudeがチャット内でインタラクティブなチャートと視覚化を直接作成可能に
AnthropicはAIチャットボットClaudeに、会話内でインタラクティブな図表や視覚化を生成する新機能をベータ公開した。
MA-EgoQA: 複数エージェントのエゴセントリック動画QA
複数の具現化エージェントによるエゴセントリック動画の質問応答に関する研究論文発表
MM-Zero: ゼロデータからの自己進化VLM
データなしで自己進化するマルチモーダルVLMの論文発表
Omni-Diffusion発表
マスク離散拡散による統一マルチモーダル理解・生成モデル
混元世界モデルのさらなる進化:世界モデル向け初のオープンソース強化学習後訓練フレームワーク「WorldCompass」を公開
テンセント混元3Dチームは、世界モデル向け初のオープンソース強化学習後訓練フレームワーク「WorldCompass」を公開した。このフレームワークは、世界モデルの対話精度と体験を向上させることを目的としている。
Penguin-VL効率限界の探求
LLMベース視覚エンコーダーでVLMの効率限界を探る新モデル発表