#マルチモーダルai のAIニュース

103件の記事

マイクロソフト、3つの新しい基盤モデルでAIライバルに挑む

マイクロソフトは、音声をテキストに変換し、音声や画像を生成できる3つの新しい基盤モデルを発表した。同社は6か月前に結成されたグループを通じてこれらのモデルをリリースした。

TechCrunch AI·4月3日

マイクロソフトのMAI-Transcribe-1、前モデルより2.5倍高速で1時間あたり0.36ドルで音声文字起こしを提供

マイクロソフトがMAI-Transcribe-1を発表した。このモデルは、25言語で背景ノイズがあっても正確に音声をテキストに変換し、前モデルより2.5倍高速で1時間あたり0.36ドルのコストで動作する。マイクロソフトは既に自社製品でこのモデルを使用している。

The Decoder·4月3日

Gemma 4を歓迎:デバイス上のフロンティアマルチモーダルインテリジェンス

Googleがデバイス上で動作するマルチモーダルAIモデル「Gemma 4」を発表した。同モデルは画像・音声・テキストを統合処理でき、クラウド依存を減らすオンデバイスAIの進展を示している。

Hugging Face Blog·4月2日·★★★★

Wan2.7-Image:人物はよりリアルに、文字はより安定に、色はより正確に

通義実験室がWan2.7-Imageを発表し、画像生成において人物のリアルさ向上、文字の安定性向上、色の正確性向上を実現した新たな手法を提供した。

通义大模型·4月1日

Granite 4.0 3B Vision:企業文書向けのコンパクトなマルチモーダルAI

IBMが企業文書向けに開発したGranite 4.0 3B Visionは、テキストと画像を同時処理できる小型マルチモーダルAIモデルで、文書解析の効率化を実現する。

Hugging Face Blog·4月1日·★★★★

AIモデルは見たことのない画像を自信満々に描写し、ベンチマークはその問題を見逃している

スタンフォード大学の研究によると、GPT-5やGemini 3 ProなどのマルチモーダルAIモデルは、画像が提供されていない場合でも詳細な画像描写や医療診断を生成する。一般的なベンチマークはこの問題を隠蔽している。

The Decoder·3月31日·★★★★

Metaの新AIモデルが画像・音声・音声に対する脳の反応を予測

Metaが開発したAIモデルは、画像・音声・音声に対する人間の脳の反応を予測する。テストでは、その予測は実際の個人の脳スキャンよりも典型的な脳反応に近い結果を示した。

The Decoder·3月28日·★★★★

Mistralの初のオープンウェイトTTSモデル「Voxtral」、3秒の音声から9言語で声をクローン

フランスのAIスタートアップMistralが、9言語をサポートし3秒の音声から声をクローンできる初のテキスト読み上げモデル「Voxtral」をリリースした。

The Decoder·3月27日·★★★★

Gemini 3.1 Flash Live発表

最高品質の音声モデル、技術的進歩を発表

X: Demis Hassabis·3月27日·★★★★

NVIDIA VLM展示会

ISC West 2026でNVIDIAとパートナーがVLMを展示

X: NVIDIA AI·3月27日

SageMaker Unified StudioとS3を用いた非構造化データによるLLMファインチューニングの加速

AWSがSageMaker Unified StudioとS3の連携を発表し、S3に保存された非構造化データを機械学習やデータ分析に活用する方法を紹介した。

AWS Machine Learning Blog·3月27日

Googleが「Search Live」を全世界で展開、スマホカメラをリアルタイムAI検索ツールに

Googleが「Search Live」を200か国以上で展開開始した。この機能はユーザーが音声とカメラを使ってGoogle検索と対話できるようにする。

The Decoder·3月27日·★★★★

Gemini 3.1 Flash Live:音声AIをより自然で信頼性の高いものに

Googleが最新音声モデル「Gemini 3.1 Flash Live」を発表し、精度向上と低遅延化により音声インタラクションをより流暢で自然なものにした。

Google DeepMind·3月27日

ConntourがGeneral CatalystとYCから700万ドルを調達し、セキュリティ映像システム向けAI検索エンジンを構築

Conntourは、セキュリティチームが自然言語でカメラ映像を検索し、任意の物体・人物・状況を発見できるAIモデルを開発した。同社はGeneral CatalystとYCから700万ドルの資金調達に成功した。

TechCrunch AI·3月26日

TRIBE v2が脳反応を予測

再学習なしで未知の個人の脳反応を予測可能なAIモデル

X: AI at Meta·3月26日·★★★★

MetaがTRIBE v2を発表

トリモーダル脳エンコーダー基盤モデルの新バージョンを公開

X: AI at Meta·3月26日·★★★★

Amazon Bedrockのマルチモーダルモデルで大規模な動画分析を実現

Amazonは、Amazon Bedrockのマルチモーダル基盤モデルを用いて、大量の動画から文脈や意味を理解し、洞察を抽出するスケーラブルなソリューションを提供している。

AWS Machine Learning Blog·3月26日·★★★★

GoogleがLyria 3 Pro音楽生成モデルを発表

GoogleがLyria 3 Proを発表した。このアップグレードされた音楽モデルは、より長く、よりカスタマイズ可能なトラックを生成し、Gemini、企業向け製品、その他のサービスでAI音楽ツールを拡大する。

TechCrunch AI·3月26日·★★★★

Google AIがLyria 3をリリース

テキスト、画像、動画から歌詞付きトラックを作成可能に

X: Google AI·3月26日

Lyria 3 Pro:構造認識により長いトラックを作成可能に

GoogleはLyria 3 Proを発表し、構造認識機能により長い音楽トラックの生成を可能にした。また、Lyriaをより多くのGoogle製品やプラットフォームに導入する。

Google DeepMind·3月26日

空間トークン生成による視覚言語モデル強化

Perceptio: 空間トークン生成で視覚言語モデルの知覚能力を向上させる新手法

X: AK·3月25日

DeepMindとAgile Robotsが研究提携

Gemini基盤モデルをロボット統合する新たな研究パートナーシップ

X: Google DeepMind·3月24日

Luma AIのUni-1、GoogleのNano Banana画像優位性に対する初の真の挑戦者となる可能性

Luma AIがUni-1を発表した。同モデルは画像理解と生成を単一アーキテクチャで統合し、生成しながらプロンプトを推論する。OpenAIとGoogleへの挑戦となる可能性がある。

The Decoder·3月24日·★★★★

HopChain: マルチホップデータ合成

汎用的な視覚言語推論のための新しい手法を提案

X: AK·3月24日

コンピューターでClaudeを活用する

AnthropicがClaude AIをユーザーのローカルコンピューターで直接動作させる機能を発表した。これにより、データ処理のプライバシーと応答速度が向上する。

Claude Blog·3月23日·★★★★

Xiaomiが3つのMiMo AIモデルを発表、エージェント・ロボット・音声を駆動

中国企業Xiaomiが、ソフトウェアの自律制御やブラウザでの買い物、将来的なロボット制御を可能にするAIエージェント構築を目指し、自社MiMoチームが3つのAIモデルを同時発表した。

The Decoder·3月23日

Loc3R-VLM発表

言語ベースの3D推論モデルLoc3R-VLMの論文公開

X: AK·3月21日

動画編集の新手法発表

指示に基づく動画編集のための新技術「SAMA」を紹介

X: AK·3月21日

空間理解の新モデル発表

生成モデルによる暗黙的3D事前知識を活用したシーン理解の研究論文

X: AK·3月21日·★★★★

Nemotron 3 Content Safety 4B:マルチモーダル・多言語コンテンツモデレーション

NVIDIAが、画像とテキストを同時に分析できるマルチモーダルAIモデル「Nemotron 3 Content Safety 4B」を発表した。このモデルは100言語に対応し、有害コンテンツの自動検出を可能にする。

Hugging Face Blog·3月21日·★★★★

データセンターへの攻撃、全サイズのQwen3.5、DeepSeekの華為戦略、Appleのマルチモーダルトークナイザー

AI業界では、データセンターへの攻撃懸念、Qwen3.5の全サイズ展開、DeepSeekの華為連携、Appleのマルチモーダルトークナイザー開発が進む。

The Batch·3月20日

GoogleのStitchとAI駆動開発の変革

GoogleはAIネイティブなプラットフォーム「Stitch」を発表した。同プラットフォームは、ユーザーがテキスト、画像、音声コマンドを使用してUIデザインを作成できるAIネイティブキャンバスを統合している。

AI Business·3月20日

MolmoPoint: VLM向け新手法

VLMsのポインティング精度向上のための新手法「Grounding Tokens」を提案

X: AK·3月19日

MolmoPoint: VLM向け新手法

VLMsのポインティング精度向上のための新手法「MolmoPoint」発表

X: AK·3月19日

マネーフォワード、Cursorのコーディングエージェントをプロダクト・デザイン・QA部門に導入

マネーフォワードがCursor社のAIコーディングエージェントをプロダクト開発・デザイン・品質保証部門に導入し、1,000人以上の従業員が日常的に利用している。

Cursor Blog·3月18日·★★★★

Mistralの新モデルSmall 4、128の専門家モジュールで高性能を発揮

Mistral AIがMistral Small 4をリリースした。同モデルは高速なテキスト応答、論理的推論、画像処理を統合し、128の専門家モジュールを搭載している。

The Decoder·3月17日

階躍星辰の「最強ロブスター脳」が極氪8Xに搭載:今すぐ出発!

階躍星辰は、AIモデル「ロブスター脳」Step 3.5 Flashを吉利の新車両インテリジェントエージェント「スーパーEva」に統合し、極氪8Xで初めて搭載することを発表した。

阶跃星辰·3月17日·★★★★

TrajTok:軌跡トークンの学習により動画理解が向上

研究者らが、動画モデルの効率と拡張性を向上させるため、外部パイプラインに依存しない統合型トークナイザー「TrajTok」を提案した。

Apple Machine Learning·3月17日·★★★★

Memories AIがウェアラブルとロボティクスのための視覚的記憶層を構築中

Memories AIは、物理AI向けにビデオ記録された記憶を索引付け・検索できる大規模視覚記憶モデルを構築している。

TechCrunch AI·3月17日

RubiCap: ルーブリックに基づく強化学習による詳細な画像キャプション生成

研究者らは、高品質な画像キャプション生成の課題に対処するため、ルーブリックに基づく強化学習手法「RubiCap」を提案した。この手法は、多様性と汎化性を向上させ、大規模な注釈コストを削減することを目指している。

Apple Machine Learning·3月16日·★★★★

GPT-5.4画像エンコーダー修正

GPT-5.4の画像入力処理のバグ修正を実施

X: OpenAI Developers·3月14日

GeminiモデルでGoogle Mapsを進化

Google Mapsの機能向上にGeminiモデルを活用する取り組みを紹介

X: Google AI·3月14日

Googleが3つのNano Banana画像生成モデルの違いを説明

GoogleがNano Banana画像生成モデルの3種類の違いと使用場面を解説。低コストのNano Banana 2はPro版の95%の性能を持ち、生成前にWebから参考画像を自律的に検索可能。

The Decoder·3月14日

動画推論モデルの屋外適用可能性

動画推論モデルの屋外環境での実用性に関する研究論文が発表されました。

X: AK·3月14日

Claudeがチャット内でインタラクティブなチャートと視覚化を直接作成可能に

AnthropicはAIチャットボットClaudeに、会話内でインタラクティブな図表や視覚化を生成する新機能をベータ公開した。

The Decoder·3月13日·★★★★

MA-EgoQA: 複数エージェントのエゴセントリック動画QA

複数の具現化エージェントによるエゴセントリック動画の質問応答に関する研究論文発表

X: AK·3月13日

MM-Zero: ゼロデータからの自己進化VLM

データなしで自己進化するマルチモーダルVLMの論文発表

X: AK·3月12日

Omni-Diffusion発表

マスク離散拡散による統一マルチモーダル理解・生成モデル

X: AK·3月12日

混元世界モデルのさらなる進化:世界モデル向け初のオープンソース強化学習後訓練フレームワーク「WorldCompass」を公開

テンセント混元3Dチームは、世界モデル向け初のオープンソース強化学習後訓練フレームワーク「WorldCompass」を公開した。このフレームワークは、世界モデルの対話精度と体験を向上させることを目的としている。

腾讯混元·3月10日·★★★★

Penguin-VL効率限界の探求

LLMベース視覚エンコーダーでVLMの効率限界を探る新モデル発表

X: AK·3月10日