#マルチモーダル のAIニュース

133件の記事

AI で他人の YouTube ショートをリミックス可能に

Google は Gemini Omni を活用した新機能「YouTube Shorts リミックス」を発表し、ユーザーが他の人の動画クリップを再スタイルしたり、自分自身を動画に挿入したりできるようになった。

The Verge AI·5月21日·★★★★

Vercel の WordPress 用 AI Gateway プラグイン

Vercel は、WordPress 7.0 で利用可能な新 AI クライアント向けに、単一 API キーで 40 社以上のプロバイダーから数百のモデルを利用可能にするプラグインを公開した。

Vercel Blog·5月20日·★★★★

ロボットにお金を使わせるか?Google はその可能性に賭ける

Google は競合が後退する中、AI 駆動のショッピングに注力している。同社は Google I/O で、Gemini や YouTube、Gmail など複数のプラットフォームで動作する「ユニバーサルカート」と呼ばれる最新 AI コマースツールを発表した。

The Verge AI·5月20日·★★★★

LiteRT-LMによるオンデバイス生成AIの高速化

Google AI Edgeが提供する「LiteRT-LM」は、Gemma 4モデルをモバイルやエッジ環境で実行するための最適化インフラであり、メモリ効率の高い動的読み込みとマルチトークン予測により、最大2.2倍の速度向上を実現し、オンデバイスでの多機能・エージェント機能を解放する。

Google Developers AI·5月19日·★★★★

Android、2026年に大規模なAI刷新へ

Googleは次週のI/Oカンファレンスで、Gemini Intelligenceの下にスマートフォン向けAI機能を展開し、アプリ自動化やカスタマイズを強化すると発表した。

Ars Technica AI·5月13日·★★★★

対話モデル:人間と AI の協調のためのスケーラブルなアプローチ

シンキングマシーンズラボは、音声・動画・テキストを横断するリアルタイムな人間と AI の協働を実現する新研究「対話モデル」を発表した。このモデルはマルチストリーム設計でゼロから学習し、従来のターン制の制限を取り除き、双方向の継続的なやり取りを可能にする。

TLDR AI·5月12日·★★★★

BalCapRL:強化学習に基づく多モーダル大規模言語モデルの画像キャプション作成のためのバランス型フレームワーク

研究者らは、既存の評価指標が特定の品質に偏りトレードオフを生む課題を解決するため、詳細かつ正確な画像キャプション生成を実現する新しい強化学習ベースのバランス型フレームワーク「BalCapRL」を発表した。

Apple Machine Learning·5月11日·★★★★

Google、Gemini 3.1 Flash-Lite を一般提供開始

Google は、超低遅延と高処理能力を特徴とする「Gemini 3.1 Flash-Lite」を Google Cloud で全世界に一般提供した。このモデルはソフトウェアエンジニアリングや金融サービス向けに設計され、サブ秒の応答時間を実現し、リアルタイム開発やカスタマーサポート業務に適している。

TLDR AI·5月11日·★★★★

Gemini API のファイル検索がマルチモーダル化:効率的で検証可能な RAG を構築可能に

Google が Gemini API のファイル検索ツールにマルチモーダル対応、カスタムメタデータフィルタリング、ページレベルの引用機能を追加し、開発者が構造化されていないテキストと画像データを処理する RAG システムを構築しやすくした。

TLDR AI·5月6日·★★★★

Google、動画生成向け新「Omni」モデルをテスト中

Google は動画と画像生成ツールを統合する新モデル「Omni」を Gemini の UI でテストしており、2026 年の Google I/O での公開も検討されている。

TLDR AI·5月4日·★★★★

Gemini Embedding 2 の一般提供:エージェント型マルチモーダル RAG を実現する統合モデル

Google はテキスト、画像、動画、音声、文書を単一の意味空間にマッピングする統合モデル「Gemini Embedding 2」の一般提供を開始した。この新モデルにより、開発者は1回のリクエストで複数のマルチモーダル入力を処理でき、エージェント型 RAG の性能が大幅に向上する。

Google Developers AI·4月30日·★★★★

NVIDIA のマルチモーダル AI モデル「Nemotron 3 Nano Omni」が Amazon SageMaker JumpStart で利用可能に

NVIDIA は、動画・音声・画像・テキストを単一アーキテクチャで処理する新モデル「Nemotron 3 Nano Omni」を、Amazon SageMaker JumpStart で即日公開した。これにより企業は、複数の情報を一度に推論して知能の高いアプリケーションを構築できるようになる。

AWS Machine Learning Blog·4月29日·★★★★

llm 0.31 リリース

llm開発者のsimonwはバージョン0.31を公開し、OpenAIのGPT-5.5モデルと冗長性設定オプションを追加した。

Simon Willison Blog·4月25日

研究者が米政策当局に「ChatGPTの過ち」をワールドモデルで繰り返すよう警告

研究者は、AIがテキストから物理世界へ移行する中、米政策当局者がその規模を把握できていないと警告し、中国がロボット分野で先行していると指摘する。

The Decoder·4月23日·★★★★

公式発表!阶跃と千里科技、全面戦略的パートナーシップを締結

阶跃と千里科技は、自動運転用基盤モデルの共同開発で戦略的パートナーシップを締結した。両社はAIが物理世界を直接理解する技術の実現を目指す。

阶跃星辰·4月23日

Qwen3.6-27B:MoEルータ不要、フラッグシップ級のプログラミング能力

通義实验室は270億パラメータの稠密モデル「Qwen3.6-27B」を公開した。MoE不要でデプロイが容易な一方、プログラミングや多模態性能は前代フラッグシップモデルを凌駕する。

通义大模型·4月22日·★★★★

ChatGPT画像生成ツールが「思考」機能を搭載して強化

ChatGPT開発元のOpenAIは、主力画像生成モデルを「思考」機能を追加して強化し、品質向上を進めている。

AI Business·4月22日·★★★★

ChatGPTの新画像生成モデル「Images 2.0」、テキスト生成能力が驚くほど高い

OpenAIは新画像生成モデル「ChatGPT Images 2.0」を公開し、テキスト生成能力にも優れていることを示した。

TechCrunch AI·4月22日

OpenAI、完全にリアルなAI生成スクリーンショットで「GPT-Image 2」を予告

OpenAIは新画像生成モデル「GPT-Image 2」を公開し、実写と見分けがつかない高精度なテスト画像を示した。

The Decoder·4月22日

GPT-Image-2 の発表と AI ニュースのまとめ

AI ニュース配信「AINews」が、2026 年 4 月 20 日から 21 日にかけての動向を報告し、Reddit や Twitter などの情報を収集した結果、GPT-Image-2 という新しい画像生成モデルに関する発表があったと伝えている。

Smol AI News·4月21日·★★★★★

合成データを用いた高速多言語OCRモデルの構築

研究者が合成データを活用して、高速で多言語対応の光学文字認識(OCR)モデルを開発した。この手法は、従来のデータ収集の課題を克服し、複数言語でのテキスト認識の効率化を実現している。

Hugging Face Blog·4月18日·★★★★

AnthropicがClaude Designを発表、素早いビジュアル作成の新製品

Anthropicは、デザイン経験のない創業者やプロダクトマネージャーがアイデアを共有しやすくするため、Claude Designを発表した。

TechCrunch AI·4月18日

Anthropic Claude Opus 4.7:全次元で前モデルより一歩進んだ

Anthropicは木曜日にClaude Opus 4.7をリリースした。この新モデルは、既存の期待を上回り、あらゆる評価次元においてClaude 4.6より優れているとされる。

Latent Space·4月17日·★★★★★

Grok音声テキスト変換およびテキスト音声変換API

Grok社が、高速で正確な音声テキスト変換と自然で表現力豊かな音声合成を提供するAPIを発表した。シンプルな価格設定と多言語対応を特徴とする。

xAI News·4月17日

AWS生成AIサービスで小売を変革

AWSが生成AIサービスを提供し、オンライン小売業者が仮想試着技術を導入することで、購入意欲向上と返品率低減を実現する。

AWS Machine Learning Blog·4月17日·★★★★

Google、マルチモーダルとエージェント機能を備えたGemma 4をApache 2.0で公開

GoogleがApache 2.0ライセンスでオープンウェイトAIモデル「Gemma 4」を発表。動画・画像処理の強化、小型モデルでの音声入力、最大256Kトークンの拡張コンテキストウィンドウが特徴。

InfoQ·4月17日·★★★★

アドビが新Firefly AIアシスタントでクリエイティブスイートをチャットボット化

アドビはFirefly AIアシスタントを発表し、PhotoshopやPremiereなどのアプリ間でクリエイティブワークフローを単一チャットインターフェースから管理するAIエージェントを提供する。

The Decoder·4月16日·★★★★

Google の Gemini 3.1 Flash TTS モデルによる自然な音声合成ツール

Google は、単一話者および複数話者の会話モードに対応し、発声指示タグの適用も可能な「Gemini 3.1 Flash TTS」モデルを公開した。このツールにより、テキストから自然な音声を生成してダウンロードできるようになった。

Simon Willison Blog·4月16日

Adobeの新Firefly AIアシスタントがCreative Cloudアプリでタスクを完了可能に

Adobeが、Firefly、Photoshop、Premiere、Lightroom、Express、Illustratorなどのアプリを横断してユーザーのタスクを実行できるAIアシスタントを発表した。

TechCrunch AI·4月15日

より優れたAIエージェントを構築する:エージェント・ベイクオフからの5つの開発者向けヒント

Google Cloud AIエージェント・ベイクオフは、単純なプロンプトエンジニアリングから厳密なエージェント工学への移行を強調し、本番環境対応のAIにはモジュラー型のマルチエージェントアーキテクチャが必要だと指摘している。複雑なタスクを専門サブエージェントに分解するなど5つの開発者向けヒントを提示した。

Google Developers AI·4月14日·★★★★

新AIモデル、1枚の写真から45分間のリップシンク動画をリアルタイム生成

LPM 1.0が、1枚の静止画からリアルタイムでリップシンク・表情・感情反応を含む動画を生成する技術を開発した。現在は研究段階である。

The Decoder·4月14日·★★★★

研究者が世界モデルの定義を明確化、テキスト動画生成AIは除外

国際研究チームがOpenWorldLibで世界モデル研究の統一を図り、Soraなどのテキスト動画生成モデルを定義から除外した。

The Decoder·4月12日

GoogleのGemma 4がスマホに無料の自律型AIを搭載、データは一切端末外に出ない

Googleがオープンソースモデル「Gemma 4」を発表した。このAIはテキスト・画像・音声を完全に端末内で処理し、自律的にWikipediaや地図などのツールを利用できる。クラウド不要でデータは端末から流出しない。

The Decoder·4月11日·★★★★

ChatGPT音声モードは弱いモデルで動作している

OpenAIのChatGPT音声モードは、古くて性能の低いモデル(GPT-4o時代のモデル)で動作しており、知識カットオフは2024年4月である。

Simon Willison Blog·4月11日

ChatGPTでのファイル操作

OpenAIはChatGPTでPDFやスプレッドシートなどのファイルをアップロードし、データ分析、文書要約、コンテンツ生成を行う方法を公開した。

OpenAI News·4月10日

Google Geminiがチャット内で調整・探索可能なインタラクティブな視覚化を生成

GoogleはGeminiがチャット内で直接インタラクティブな視覚化を生成する機能を追加した。ユーザーは生成されたグラフや図をその場で調整・探索できるようになった。

The Decoder·4月10日

階層的エージェントRAGシステムの構築:自律的エラー回復を備えたマルチモーダル推論

著者が、階層的エージェントRAGシステムが専門ワーカーを構造化されたオーケストレーションで調整し、複雑な企業分析ワークフローの精度・信頼性・説明可能性を向上させる方法を探る。

InfoQ·4月9日·★★★★

Metaが新モデル「Muse Spark」を発表、meta.aiチャットに注目ツールを追加

Metaが約1年ぶりに新モデル「Muse Spark」を発表した。APIは限定ユーザー向けのプレビュー版だが、meta.aiでログイン後に試用可能。

Simon Willison Blog·4月9日

GLM-5.1:長期的タスクへの取り組み

中国AI研究所Z.aiが、7540億パラメータの大規模言語モデル「GLM-5.1」を発表した。同モデルはMITライセンスで公開され、長期的タスク処理への対応を目指している。

Simon Willison Blog·4月8日

Deep Agents v0.5のリリース

Deep Agentsチームは、非同期サブエージェントやマルチモーダルファイルシステム対応などを搭載した「deepagents」と「deepagentsjs」の新版を公開した。これにより、メインエージェントがブロックされずにバックグラウンドで遠隔エージェントに作業を委譲できるようになった。

LangChain Blog·4月8日·★★★★

【AIニュース】グッドフライデー

Gemmaの好意的な評価が継続しており、Marc Andreesenのポッドキャストで高い評価を得ている。来週ロンドンで開催されるAIE Europeでは、OpenClawやPiなどの欧州発AIツールのクリエイターが登壇し、ライブ配信される。

Latent Space·4月4日·★★★★

Wan2.7-Videoが創作の自由をもたらす

通義実験室は、AI動画創作モデル「Wan2.7-Video」を発表した。同モデルは、生成だけでなく編集・復刻・再構築・駆動・継続など創作全工程をカバーし、より制御性の高い動画制作を可能にする。

通义大模型·4月3日·★★★★

Nvidiaが288GPUでMLPerf新記録を樹立、AMDとIntelは異なる戦いに注力

Nvidiaは288基のGPUでMLPerfベンチマークの新記録を達成した。一方、AMDとIntelは異なる評価指標を重視しており、直接比較は困難である。最新のMLPerfでは初めてマルチモーダルモデルと動画モデルが導入された。

The Decoder·4月2日

Google DeepMind、Gemma 4シリーズをApache 2.0ライセンスで公開

Google DeepMindは、最大256Kトークンのコンテキスト長に対応するオープンウェイトのマルチモーダルモデル「Gemma 4」シリーズを公開した。31B、26B MoE、エッジ向けモデルなど複数のサイズを備え、ローカルやエッジでのデプロイに最適化されている。

Smol AI News·4月2日·★★★★

PDFの図表はRAGで扱えるのか?6つの方法で検証して分かった“現実的な最適解”

本記事は、PDF内の図表をRAGで扱うための6つの手法(テキスト抽出・LLMによるOCR・マルチモーダルEmbedding等)を精度・コスト・処理時間の観点から比較検証し、実務で使える現実的な最適解を整理した。

HEROZ Tech Blog·3月31日

Cohere、音声認識ベンチマークでトップのオープンソースモデルをリリース

Cohereがオープンソースの音声認識モデルを発表し、ベンチマークでOpenAIのWhisperを含む全ての競合を上回った。

The Decoder·3月28日·★★★★

Gemini 3.1 Flash LiveはGoogleの最も自然なAI音声モデル

GoogleがGemini 3.1 Flash Liveを発表し、より高速で自然な音声会話を実現した。開発者は品質と速度を調整でき、価格はGemini 2.5と同等に維持される。

The Decoder·3月27日

ByteDanceの新AI動画生成モデル「Dreamina Seedance 2.0」がCapCutに搭載

ByteDanceがAI動画生成モデル「Dreamina Seedance 2.0」をCapCutに搭載した。同モデルは実在人物の顔や無許可知的財産からの動画生成に対する保護機能を内蔵している。

TechCrunch AI·3月27日

Cohereが文字起こし専用のオープンソース音声モデルを発表

Cohereが20億パラメータの軽量なオープンソース音声モデルを公開した。このモデルは消費者向けGPUで自己ホスト可能で、現在14言語をサポートしている。

TechCrunch AI·3月26日

Google、権利を有するデータで学習したAI音楽生成モデル「Lyria 3 Pro」を発表

GoogleがAI音楽生成モデル「Lyria 3 Pro」を発表した。同モデルは最大3分間の楽曲を生成でき、権利を有するデータで学習している点が特徴で、著作権問題を抱える競合他社と差別化している。

The Decoder·3月26日·★★★★