#マルチモーダル のAIニュース
170件の記事
RAG-Anything チュートリアル:Colab でテキスト、表、数式、画像を扱うマルチモーダル検索パイプラインの構築方法
MarkTechPost は、Colab 環境で RAG-Anything ワークフローを実装し、テキストや表、数式、画像など多様なデータ形式に対するマルチモーダル検索の仕組みを検証するチュートリアルを公開しました。
Google の Nano Banana 2 Lite(Gemini 3.1 Flash Lite Image)が AI Gateway に登場
Google が提供する画像生成モデル「Nano Banana 2 Lite」が、Vercel の AI Gateway で利用可能になった。このモデルは高速・低コストを特徴とし、テキスト生成と並行して画像を作成できるほか、既存画像の複数ターンにわたる編集も可能である。
OpenClaw、iOS および Android 向けコンパニオンノードアプリをリリースし、スマートフォンを自己ホスト型 AI エージェントゲートウェイに接続
OpenClaw が iOS と Android のネイティブアプリを無料公開した。これらは単体チャットボットではなく、電話をネットワークノードとして機能させ、アシスタントは別個のゲートウェイで実行する設計である。
Gemini の個人向け AI 画像生成が米国ユーザーに無料提供開始
Google が提供する Gemini の個人向け AI 画像生成機能を、米国在住の一般ユーザーに対して無償で利用可能にするサービスを開始した。
カンヌ広告祭の裏側:業界最大級のパーティーを巡る
404 Media は、カンヌ広告祭で DJ ティエストやディプロらが出演するイベント会場に殺到した人々の様子を紹介し、広告業界最大のパーティーの活況を伝えている。
AI Gateway でリアルタイム音声エージェントを構築可能に
Vercel は AI Gateway にオーディオ機能を追加し、OpenAI や xAI のモデルを用いてリアルタイム音声、テキスト読み上げ、音声認識を既存の API 呼び出しで利用できるようにした。この機能はベータ版として AI SDK 7 で提供されている。
OpenAI、ChatGPT向け双方向音声モードの展開を準備
OpenAIは、アシスタントが同時に話しかけ、聞き取り、応答できる新音声生成モデル「Bidi 1」をChatGPTに導入し、会話の流れを維持しながら中断時に即座にタスクを切り替える機能をロールアウトしている。
Amazon Bedrock に Google DeepMind の「Gemma 4」モデルシリーズが追加
Google DeepMind が開発したオープンウェイトの AI モデル「Gemma 4」シリーズ(31B、26B-A4B、E2B)が、Amazon Bedrock で利用可能になった。
Moonshot AI の「Kimi K2.7 Code」が Vercel AI Gateway で利用可能に
Vercel は、Moonshot AI が開発した長期的コーディングタスク対応の多機能モデル「Kimi K2.7 Code」を自社の AI Gateway に追加し、テキストと画像の入力を同時に処理できる機能を公開しました。
Claude Corps の紹介
Anthropic が、複数の Claude モデルを統合・連携させる新機能「Claude Corps」を発表した。これにより、複雑なタスク処理や大規模な推論がより効率的に行えるようになる。
Gemini 3.5 Live Translate で流体かつ自然な音声翻訳を実現(4 分読了)
Google は、70 以上の言語間でリアルタイムの音声対音声翻訳を行う「Gemini 3.5 Live Translate」を公開した。この音声モデルは不自然な間隔を排除し、イントネーションを維持する機能を備え、現在は Google Meet の非公開ベータ版や Android/iOS の Google 翻訳アプリを通じて展開されている。
Google、Meet・翻訳・ライブ API で 70 言語以上対応のストリーミング音声対音声モデル「Gemini 3.5 Live Translate」を公開
Google は、70 以上の言語を自動検知し、話者のイントネーションやピッチを保ちながら連続的に翻訳音声を生成する新モデル「Gemini 3.5 Live Translate」を発表した。この技術は Meet、翻訳サービス、ライブ API で利用可能となる。
Gemini 3.5 Live Translate による流体かつ自然な音声翻訳の実現
Google DeepMind は、Gemini 3.5 Live Translate を発表し、会話のような自然さでリアルタイムに音声翻訳を行う技術を開発した。
Apple の AI 約束がいよいよ、ほぼ、あるいは少しだけ実現した
Apple は開発者会議で AI に関する大胆な約束を表明したが、CEO ティム・クックが述べた新技術の導入よりも、むしろ「Siri AI」を中心とした発表は他社に追いつくためのものだった。
Apple の Image Playground がもはや酷くない
Apple は画像生成ツール「Image Playground」の品質を大幅に改善し、以前のような低評価から脱却したと報じられた。
OpenAI、ChatGPT の大規模刷新を準備中と報じられる
報道によると、OpenAI は ChatGPT の大規模な刷新を計画している。具体的な変更点は明言されていないが、同社が次期バージョンの大幅改良を検討していることが示唆されている。
化学者としての Claude の活用(12 分読)
Anthropic が開発した AI モデル「Claude」は、NMR スペクトルの予測において従来のツールに匹敵し、場合によっては上回る性能を示しました。特に Claude 派生モデルの「Opus 4.7」は水素や炭素シフトを正確に予測し、スペクトルデータから化学構造を推定する逆工学タスクでも有望な結果を出しています。
ミラ・ムラティが再び注目を集める、慎重な姿勢で
OpenAI の元最高技術責任者であるミラ・ムラティ氏が、新たな役割や活動を通じて業界の注目を集めつつある。彼女は慎重な姿勢を維持しながら、テック界での影響力を再構築している。
Nemotron 3.5 コンテンツセーフティ:グローバル企業向けカスタマイズ可能なマルチモーダル安全性
Hugging Face は、Nemotron 3.5 のコンテンツセーフティ機能を発表し、グローバル企業の AI 利用に向けたカスタマイズ可能なマルチモーダル安全性を提供する。
MiniMax、1M トークンコンテキストモデル公開後に M3 の重みを提供すると約束
MiniMax は、10 日以内に M3 モデルの重みと技術報告書を公開すると発表した。同社は現在、このモデルを MiniMax Code や API で提供しており、最大 1M トークンのコンテキストウィンドウを持つ初のオープンウェイトモデルである。
xAI の「Grok Imagine Video 1.5」が AI Gateway で利用可能に
xAI が開発した動画生成モデル「Grok Imagine Video 1.5」が、AI Gateway で利用可能になりました。このモデルは入力画像から同期された音声付き動画を単一パスで生成し、音質やプロンプトの精度、人物の一貫性が向上しています。
Google AI Edge を活用した Gemma 4 12B のローカル導入:ラップトップで実行可能なエージェント型ワークフローの実現
Google DeepMind は、メモリ 16GB の一般的なラップトップでも動作する「Gemma 4 12B」モデルを発表し、macOS 上で Google AI Edge Gallery を介してローカルデータ処理や視覚的洞察生成を可能にするエージェント型 AI ワークフローを提供している。
アリババの「Qwen 3.7 Plus」が Vercel AI Gateway で利用可能に
Vercel はアリババが開発した多機能エージェントモデル「Qwen 3.7 Plus」を自社の AI Gateway に追加し、視覚と言語を統合した GUI・CLI操作やコーディング支援機能を SDK を通じて提供開始した。
間もなく登場する Copilot スーパーアプリの新しいスクリーンショット(2 分読了)
TLDR AI が、Microsoft の Copilot を統合した次世代スーパーアプリの新たなスクリーンショットを公開し、今後の機能や UI 変更について報じた。
MiniMax M3 の紹介:最先端の 3 つの能力を統合した初のオープンウェイトモデル
MiniMax が、コーディングとエージェント機能、100 万トークンのコンテキスト長など、3 つの最先端機能を組み合わせた初のオープンウェイトモデル「M3」を発表しました。
Vercel AI Gateway に MiniMax M3 が追加
Vercel は、100 万トークンのコンテキストウィンドウとネイティブ多モーダル機能を備えた「MiniMax M3」を自社の AI Gateway に導入した。このモデルはソフトウェアエンジニアリングやエージェント型ウェブブラウジングに最適化されている。
YouTube、AI 生成動画の自動ラベル付けを開始
Google が運営する YouTube は、2024 年の試行に続き、アップローダーへの依存を減らし、AI 生成動画をより目立つ形で自動的にラベル付けする方針を発表した。
YouTube、AI 生成動画に自動ラベル付けを開始
YouTube が AI によって作成された動画に対して自動的にラベルを付与する機能を導入した。これにより視聴者は動画の生成元を容易に識別できるようになる。
トークンストリームからエージェントストリームへ
LangChain と LangGraph が、Deep Agents の最新ストリーミング機能を活用し、型安全なイベントやマルチモーダル出力を実現するプロダクション対応のエージェントアプリケーション構築を可能にした。
Spotify Studio の AI エージェントがあなた専用の毎日ポッドキャストを生成
Spotify Labs が開発した新アプリ「Studio」は、チャットボットの指示に基づき、ユーザーの聴取履歴や連携アプリの情報を利用して、PC 上で毎日独自のブリーフィングやポッドキャスト、プレイリストを自動生成する。
アリババの「Qwen 3.7 Max」が Vercel AI Gateway で利用可能に
アリババが開発した大規模言語モデル「Qwen 3.7 Max」が、Vercel の AI ゲートウェイで正式に利用可能となりました。このモデルはコーディングやオフィスワークの自動化など、長期的な自律実行を支援するエージェント基盤として設計されています。
AI で他人の YouTube ショートをリミックス可能に
Google は Gemini Omni を活用した新機能「YouTube Shorts リミックス」を発表し、ユーザーが他の人の動画クリップを再スタイルしたり、自分自身を動画に挿入したりできるようになった。
Vercel の WordPress 用 AI Gateway プラグイン
Vercel は、WordPress 7.0 で利用可能な新 AI クライアント向けに、単一 API キーで 40 社以上のプロバイダーから数百のモデルを利用可能にするプラグインを公開した。
Google、Meta の真似をして IO 2026 で音声対応スマートグラスを発表
Google はイベント「IO 2026」において、Meta が展開している戦略を踏襲した新しい音声機能搭載型スマートグラスの発表を行った。
ロボットにお金を使わせるか?Google はその可能性に賭ける
Google は競合が後退する中、AI 駆動のショッピングに注力している。同社は Google I/O で、Gemini や YouTube、Gmail など複数のプラットフォームで動作する「ユニバーサルカート」と呼ばれる最新 AI コマースツールを発表した。
Google の Gemini Omni が画像・音声・テキストから動画を生成、その先も続く
Google は新モデル「Gemini Omni」を発表し、画像や音声、テキストを入力として動画を作成する機能を搭載した。これは同社のマルチモーダル能力のさらなる拡張であり、今後の技術展開の第一歩となる。
LiteRT-LMによるオンデバイス生成AIの高速化
Google AI Edgeが提供する「LiteRT-LM」は、Gemma 4モデルをモバイルやエッジ環境で実行するための最適化インフラであり、メモリ効率の高い動的読み込みとマルチトークン予測により、最大2.2倍の速度向上を実現し、オンデバイスでの多機能・エージェント機能を解放する。
Wirestock が AI ラボ向けに多モーダルクリエイティブデータを供給するため 2,300 万ドルを調達
データプラットフォーム企業 Wirestock は、AI 研究機関やラボに対して高品質な多モーダル(画像・テキストなど)のクリエイティブデータを提供する事業を拡大するため、総額 2,300 万ドルの資金調達を実施した。
Amazon、検索バーにAlexa+搭載のAIショッピングアシスタントを発売
Amazonは、検索機能にAlexa+を搭載した新しいAIショッピングアシスタントを発表し、ユーザーが商品検索をより直感的に行えるよう支援する機能を追加しました。
Android、2026年に大規模なAI刷新へ
Googleは次週のI/Oカンファレンスで、Gemini Intelligenceの下にスマートフォン向けAI機能を展開し、アプリ自動化やカスタマイズを強化すると発表した。
対話モデル:人間と AI の協調のためのスケーラブルなアプローチ
シンキングマシーンズラボは、音声・動画・テキストを横断するリアルタイムな人間と AI の協働を実現する新研究「対話モデル」を発表した。このモデルはマルチストリーム設計でゼロから学習し、従来のターン制の制限を取り除き、双方向の継続的なやり取りを可能にする。
BalCapRL:強化学習に基づく多モーダル大規模言語モデルの画像キャプション作成のためのバランス型フレームワーク
研究者らは、既存の評価指標が特定の品質に偏りトレードオフを生む課題を解決するため、詳細かつ正確な画像キャプション生成を実現する新しい強化学習ベースのバランス型フレームワーク「BalCapRL」を発表した。
Google、Gemini 3.1 Flash-Lite を一般提供開始
Google は、超低遅延と高処理能力を特徴とする「Gemini 3.1 Flash-Lite」を Google Cloud で全世界に一般提供した。このモデルはソフトウェアエンジニアリングや金融サービス向けに設計され、サブ秒の応答時間を実現し、リアルタイム開発やカスタマーサポート業務に適している。
Apple、iOS 27 でマルチモデル AI の導入を検討中(3 分読み)
アップルは次期 OS「iOS 27」において、複数の AI モデルを統合する機能を探索している。これにより端末内での処理能力向上が期待される。
Gemini API のファイル検索がマルチモーダル化:効率的で検証可能な RAG を構築可能に
Google が Gemini API のファイル検索ツールにマルチモーダル対応、カスタムメタデータフィルタリング、ページレベルの引用機能を追加し、開発者が構造化されていないテキストと画像データを処理する RAG システムを構築しやすくした。
Apple、iOS 27 でユーザーが AI モデルを選択できる「自分だけの冒険」を実現する計画
Apple は次期 OS「iOS 27」において、ユーザーが複数の AI モデルから自由に選択し、用途に応じて使い分けられる機能を導入する方針を明らかにした。これにより、単一のモデルに依存しない柔軟な AI 体験が可能となる。
Google、動画生成向け新「Omni」モデルをテスト中
Google は動画と画像生成ツールを統合する新モデル「Omni」を Gemini の UI でテストしており、2026 年の Google I/O での公開も検討されている。
Gemini Embedding 2 の一般提供:エージェント型マルチモーダル RAG を実現する統合モデル
Google はテキスト、画像、動画、音声、文書を単一の意味空間にマッピングする統合モデル「Gemini Embedding 2」の一般提供を開始した。この新モデルにより、開発者は1回のリクエストで複数のマルチモーダル入力を処理でき、エージェント型 RAG の性能が大幅に向上する。
NVIDIA のマルチモーダル AI モデル「Nemotron 3 Nano Omni」が Amazon SageMaker JumpStart で利用可能に
NVIDIA は、動画・音声・画像・テキストを単一アーキテクチャで処理する新モデル「Nemotron 3 Nano Omni」を、Amazon SageMaker JumpStart で即日公開した。これにより企業は、複数の情報を一度に推論して知能の高いアプリケーションを構築できるようになる。
llm 0.31 リリース
llm開発者のsimonwはバージョン0.31を公開し、OpenAIのGPT-5.5モデルと冗長性設定オプションを追加した。