メインコンテンツへスキップ

#マルチモーダル のAIニュース

170件の記事

RAG-Anything チュートリアル:Colab でテキスト、表、数式、画像を扱うマルチモーダル検索パイプラインの構築方法

MarkTechPost は、Colab 環境で RAG-Anything ワークフローを実装し、テキストや表、数式、画像など多様なデータ形式に対するマルチモーダル検索の仕組みを検証するチュートリアルを公開しました。

MarkTechPost·7月3日·★★★★

Google の Nano Banana 2 Lite(Gemini 3.1 Flash Lite Image)が AI Gateway に登場

Google が提供する画像生成モデル「Nano Banana 2 Lite」が、Vercel の AI Gateway で利用可能になった。このモデルは高速・低コストを特徴とし、テキスト生成と並行して画像を作成できるほか、既存画像の複数ターンにわたる編集も可能である。

Vercel Blog·6月30日·★★★★

OpenClaw、iOS および Android 向けコンパニオンノードアプリをリリースし、スマートフォンを自己ホスト型 AI エージェントゲートウェイに接続

OpenClaw が iOS と Android のネイティブアプリを無料公開した。これらは単体チャットボットではなく、電話をネットワークノードとして機能させ、アシスタントは別個のゲートウェイで実行する設計である。

MarkTechPost·6月30日·★★★★

Gemini の個人向け AI 画像生成が米国ユーザーに無料提供開始

Google が提供する Gemini の個人向け AI 画像生成機能を、米国在住の一般ユーザーに対して無償で利用可能にするサービスを開始した。

TechCrunch AI·6月30日

カンヌ広告祭の裏側:業界最大級のパーティーを巡る

404 Media は、カンヌ広告祭で DJ ティエストやディプロらが出演するイベント会場に殺到した人々の様子を紹介し、広告業界最大のパーティーの活況を伝えている。

404 Media·6月29日

AI Gateway でリアルタイム音声エージェントを構築可能に

Vercel は AI Gateway にオーディオ機能を追加し、OpenAI や xAI のモデルを用いてリアルタイム音声、テキスト読み上げ、音声認識を既存の API 呼び出しで利用できるようにした。この機能はベータ版として AI SDK 7 で提供されている。

Vercel Blog·6月29日·★★★★

OpenAI、ChatGPT向け双方向音声モードの展開を準備

OpenAIは、アシスタントが同時に話しかけ、聞き取り、応答できる新音声生成モデル「Bidi 1」をChatGPTに導入し、会話の流れを維持しながら中断時に即座にタスクを切り替える機能をロールアウトしている。

TLDR AI·6月24日·★★★★

Amazon Bedrock に Google DeepMind の「Gemma 4」モデルシリーズが追加

Google DeepMind が開発したオープンウェイトの AI モデル「Gemma 4」シリーズ(31B、26B-A4B、E2B)が、Amazon Bedrock で利用可能になった。

AWS Machine Learning Blog·6月16日·★★★★

Moonshot AI の「Kimi K2.7 Code」が Vercel AI Gateway で利用可能に

Vercel は、Moonshot AI が開発した長期的コーディングタスク対応の多機能モデル「Kimi K2.7 Code」を自社の AI Gateway に追加し、テキストと画像の入力を同時に処理できる機能を公開しました。

Vercel Blog·6月12日·★★★★

Claude Corps の紹介

Anthropic が、複数の Claude モデルを統合・連携させる新機能「Claude Corps」を発表した。これにより、複雑なタスク処理や大規模な推論がより効率的に行えるようになる。

Anthropic News·6月11日

Gemini 3.5 Live Translate で流体かつ自然な音声翻訳を実現(4 分読了)

Google は、70 以上の言語間でリアルタイムの音声対音声翻訳を行う「Gemini 3.5 Live Translate」を公開した。この音声モデルは不自然な間隔を排除し、イントネーションを維持する機能を備え、現在は Google Meet の非公開ベータ版や Android/iOS の Google 翻訳アプリを通じて展開されている。

TLDR AI·6月10日·★★★★

Google、Meet・翻訳・ライブ API で 70 言語以上対応のストリーミング音声対音声モデル「Gemini 3.5 Live Translate」を公開

Google は、70 以上の言語を自動検知し、話者のイントネーションやピッチを保ちながら連続的に翻訳音声を生成する新モデル「Gemini 3.5 Live Translate」を発表した。この技術は Meet、翻訳サービス、ライブ API で利用可能となる。

MarkTechPost·6月10日·★★★★

Gemini 3.5 Live Translate による流体かつ自然な音声翻訳の実現

Google DeepMind は、Gemini 3.5 Live Translate を発表し、会話のような自然さでリアルタイムに音声翻訳を行う技術を開発した。

Google DeepMind·6月10日·★★★★

Apple の AI 約束がいよいよ、ほぼ、あるいは少しだけ実現した

Apple は開発者会議で AI に関する大胆な約束を表明したが、CEO ティム・クックが述べた新技術の導入よりも、むしろ「Siri AI」を中心とした発表は他社に追いつくためのものだった。

The Verge AI·6月9日·★★★★

Apple の Image Playground がもはや酷くない

Apple は画像生成ツール「Image Playground」の品質を大幅に改善し、以前のような低評価から脱却したと報じられた。

TechCrunch AI·6月9日

OpenAI、ChatGPT の大規模刷新を準備中と報じられる

報道によると、OpenAI は ChatGPT の大規模な刷新を計画している。具体的な変更点は明言されていないが、同社が次期バージョンの大幅改良を検討していることが示唆されている。

TLDR AI·6月8日·★★★★

化学者としての Claude の活用(12 分読)

Anthropic が開発した AI モデル「Claude」は、NMR スペクトルの予測において従来のツールに匹敵し、場合によっては上回る性能を示しました。特に Claude 派生モデルの「Opus 4.7」は水素や炭素シフトを正確に予測し、スペクトルデータから化学構造を推定する逆工学タスクでも有望な結果を出しています。

TLDR AI·6月8日·★★★★

ミラ・ムラティが再び注目を集める、慎重な姿勢で

OpenAI の元最高技術責任者であるミラ・ムラティ氏が、新たな役割や活動を通じて業界の注目を集めつつある。彼女は慎重な姿勢を維持しながら、テック界での影響力を再構築している。

TechCrunch AI·6月5日·★★★★

Nemotron 3.5 コンテンツセーフティ:グローバル企業向けカスタマイズ可能なマルチモーダル安全性

Hugging Face は、Nemotron 3.5 のコンテンツセーフティ機能を発表し、グローバル企業の AI 利用に向けたカスタマイズ可能なマルチモーダル安全性を提供する。

Hugging Face Blog·6月5日·★★★★

MiniMax、1M トークンコンテキストモデル公開後に M3 の重みを提供すると約束

MiniMax は、10 日以内に M3 モデルの重みと技術報告書を公開すると発表した。同社は現在、このモデルを MiniMax Code や API で提供しており、最大 1M トークンのコンテキストウィンドウを持つ初のオープンウェイトモデルである。

TLDR AI·6月3日·★★★★

xAI の「Grok Imagine Video 1.5」が AI Gateway で利用可能に

xAI が開発した動画生成モデル「Grok Imagine Video 1.5」が、AI Gateway で利用可能になりました。このモデルは入力画像から同期された音声付き動画を単一パスで生成し、音質やプロンプトの精度、人物の一貫性が向上しています。

Vercel Blog·6月3日·★★★★

Google AI Edge を活用した Gemma 4 12B のローカル導入:ラップトップで実行可能なエージェント型ワークフローの実現

Google DeepMind は、メモリ 16GB の一般的なラップトップでも動作する「Gemma 4 12B」モデルを発表し、macOS 上で Google AI Edge Gallery を介してローカルデータ処理や視覚的洞察生成を可能にするエージェント型 AI ワークフローを提供している。

Google Developers AI·6月3日·★★★★

アリババの「Qwen 3.7 Plus」が Vercel AI Gateway で利用可能に

Vercel はアリババが開発した多機能エージェントモデル「Qwen 3.7 Plus」を自社の AI Gateway に追加し、視覚と言語を統合した GUI・CLI操作やコーディング支援機能を SDK を通じて提供開始した。

Vercel Blog·6月1日·★★★★

間もなく登場する Copilot スーパーアプリの新しいスクリーンショット(2 分読了)

TLDR AI が、Microsoft の Copilot を統合した次世代スーパーアプリの新たなスクリーンショットを公開し、今後の機能や UI 変更について報じた。

TLDR AI·6月1日·★★★★

MiniMax M3 の紹介:最先端の 3 つの能力を統合した初のオープンウェイトモデル

MiniMax が、コーディングとエージェント機能、100 万トークンのコンテキスト長など、3 つの最先端機能を組み合わせた初のオープンウェイトモデル「M3」を発表しました。

TLDR AI·6月1日·★★★★

Vercel AI Gateway に MiniMax M3 が追加

Vercel は、100 万トークンのコンテキストウィンドウとネイティブ多モーダル機能を備えた「MiniMax M3」を自社の AI Gateway に導入した。このモデルはソフトウェアエンジニアリングやエージェント型ウェブブラウジングに最適化されている。

Vercel Blog·5月31日·★★★★

YouTube、AI 生成動画の自動ラベル付けを開始

Google が運営する YouTube は、2024 年の試行に続き、アップローダーへの依存を減らし、AI 生成動画をより目立つ形で自動的にラベル付けする方針を発表した。

Ars Technica AI·5月28日·★★★★

YouTube、AI 生成動画に自動ラベル付けを開始

YouTube が AI によって作成された動画に対して自動的にラベルを付与する機能を導入した。これにより視聴者は動画の生成元を容易に識別できるようになる。

TechCrunch AI·5月27日·★★★★

トークンストリームからエージェントストリームへ

LangChain と LangGraph が、Deep Agents の最新ストリーミング機能を活用し、型安全なイベントやマルチモーダル出力を実現するプロダクション対応のエージェントアプリケーション構築を可能にした。

LangChain Blog·5月22日·★★★★

Spotify Studio の AI エージェントがあなた専用の毎日ポッドキャストを生成

Spotify Labs が開発した新アプリ「Studio」は、チャットボットの指示に基づき、ユーザーの聴取履歴や連携アプリの情報を利用して、PC 上で毎日独自のブリーフィングやポッドキャスト、プレイリストを自動生成する。

The Verge AI·5月22日·★★★★

アリババの「Qwen 3.7 Max」が Vercel AI Gateway で利用可能に

アリババが開発した大規模言語モデル「Qwen 3.7 Max」が、Vercel の AI ゲートウェイで正式に利用可能となりました。このモデルはコーディングやオフィスワークの自動化など、長期的な自律実行を支援するエージェント基盤として設計されています。

Vercel Blog·5月21日·★★★★

AI で他人の YouTube ショートをリミックス可能に

Google は Gemini Omni を活用した新機能「YouTube Shorts リミックス」を発表し、ユーザーが他の人の動画クリップを再スタイルしたり、自分自身を動画に挿入したりできるようになった。

The Verge AI·5月21日·★★★★

Vercel の WordPress 用 AI Gateway プラグイン

Vercel は、WordPress 7.0 で利用可能な新 AI クライアント向けに、単一 API キーで 40 社以上のプロバイダーから数百のモデルを利用可能にするプラグインを公開した。

Vercel Blog·5月20日·★★★★

Google、Meta の真似をして IO 2026 で音声対応スマートグラスを発表

Google はイベント「IO 2026」において、Meta が展開している戦略を踏襲した新しい音声機能搭載型スマートグラスの発表を行った。

TechCrunch AI·5月20日·★★★★

ロボットにお金を使わせるか?Google はその可能性に賭ける

Google は競合が後退する中、AI 駆動のショッピングに注力している。同社は Google I/O で、Gemini や YouTube、Gmail など複数のプラットフォームで動作する「ユニバーサルカート」と呼ばれる最新 AI コマースツールを発表した。

The Verge AI·5月20日·★★★★

Google の Gemini Omni が画像・音声・テキストから動画を生成、その先も続く

Google は新モデル「Gemini Omni」を発表し、画像や音声、テキストを入力として動画を作成する機能を搭載した。これは同社のマルチモーダル能力のさらなる拡張であり、今後の技術展開の第一歩となる。

TechCrunch AI·5月20日·★★★★

LiteRT-LMによるオンデバイス生成AIの高速化

Google AI Edgeが提供する「LiteRT-LM」は、Gemma 4モデルをモバイルやエッジ環境で実行するための最適化インフラであり、メモリ効率の高い動的読み込みとマルチトークン予測により、最大2.2倍の速度向上を実現し、オンデバイスでの多機能・エージェント機能を解放する。

Google Developers AI·5月19日·★★★★

Wirestock が AI ラボ向けに多モーダルクリエイティブデータを供給するため 2,300 万ドルを調達

データプラットフォーム企業 Wirestock は、AI 研究機関やラボに対して高品質な多モーダル(画像・テキストなど)のクリエイティブデータを提供する事業を拡大するため、総額 2,300 万ドルの資金調達を実施した。

TechCrunch AI·5月14日·★★★★

Amazon、検索バーにAlexa+搭載のAIショッピングアシスタントを発売

Amazonは、検索機能にAlexa+を搭載した新しいAIショッピングアシスタントを発表し、ユーザーが商品検索をより直感的に行えるよう支援する機能を追加しました。

TechCrunch AI·5月13日·★★★★

Android、2026年に大規模なAI刷新へ

Googleは次週のI/Oカンファレンスで、Gemini Intelligenceの下にスマートフォン向けAI機能を展開し、アプリ自動化やカスタマイズを強化すると発表した。

Ars Technica AI·5月13日·★★★★

対話モデル:人間と AI の協調のためのスケーラブルなアプローチ

シンキングマシーンズラボは、音声・動画・テキストを横断するリアルタイムな人間と AI の協働を実現する新研究「対話モデル」を発表した。このモデルはマルチストリーム設計でゼロから学習し、従来のターン制の制限を取り除き、双方向の継続的なやり取りを可能にする。

TLDR AI·5月12日·★★★★

BalCapRL:強化学習に基づく多モーダル大規模言語モデルの画像キャプション作成のためのバランス型フレームワーク

研究者らは、既存の評価指標が特定の品質に偏りトレードオフを生む課題を解決するため、詳細かつ正確な画像キャプション生成を実現する新しい強化学習ベースのバランス型フレームワーク「BalCapRL」を発表した。

Apple Machine Learning·5月11日·★★★★

Google、Gemini 3.1 Flash-Lite を一般提供開始

Google は、超低遅延と高処理能力を特徴とする「Gemini 3.1 Flash-Lite」を Google Cloud で全世界に一般提供した。このモデルはソフトウェアエンジニアリングや金融サービス向けに設計され、サブ秒の応答時間を実現し、リアルタイム開発やカスタマーサポート業務に適している。

TLDR AI·5月11日·★★★★

Apple、iOS 27 でマルチモデル AI の導入を検討中(3 分読み)

アップルは次期 OS「iOS 27」において、複数の AI モデルを統合する機能を探索している。これにより端末内での処理能力向上が期待される。

TLDR AI·5月6日

Gemini API のファイル検索がマルチモーダル化:効率的で検証可能な RAG を構築可能に

Google が Gemini API のファイル検索ツールにマルチモーダル対応、カスタムメタデータフィルタリング、ページレベルの引用機能を追加し、開発者が構造化されていないテキストと画像データを処理する RAG システムを構築しやすくした。

TLDR AI·5月6日·★★★★

Apple、iOS 27 でユーザーが AI モデルを選択できる「自分だけの冒険」を実現する計画

Apple は次期 OS「iOS 27」において、ユーザーが複数の AI モデルから自由に選択し、用途に応じて使い分けられる機能を導入する方針を明らかにした。これにより、単一のモデルに依存しない柔軟な AI 体験が可能となる。

TechCrunch AI·5月6日·★★★★

Google、動画生成向け新「Omni」モデルをテスト中

Google は動画と画像生成ツールを統合する新モデル「Omni」を Gemini の UI でテストしており、2026 年の Google I/O での公開も検討されている。

TLDR AI·5月4日·★★★★

Gemini Embedding 2 の一般提供:エージェント型マルチモーダル RAG を実現する統合モデル

Google はテキスト、画像、動画、音声、文書を単一の意味空間にマッピングする統合モデル「Gemini Embedding 2」の一般提供を開始した。この新モデルにより、開発者は1回のリクエストで複数のマルチモーダル入力を処理でき、エージェント型 RAG の性能が大幅に向上する。

Google Developers AI·4月30日·★★★★

NVIDIA のマルチモーダル AI モデル「Nemotron 3 Nano Omni」が Amazon SageMaker JumpStart で利用可能に

NVIDIA は、動画・音声・画像・テキストを単一アーキテクチャで処理する新モデル「Nemotron 3 Nano Omni」を、Amazon SageMaker JumpStart で即日公開した。これにより企業は、複数の情報を一度に推論して知能の高いアプリケーションを構築できるようになる。

AWS Machine Learning Blog·4月29日·★★★★

llm 0.31 リリース

llm開発者のsimonwはバージョン0.31を公開し、OpenAIのGPT-5.5モデルと冗長性設定オプションを追加した。

Simon Willison Blog·4月25日