#マルチモーダルのAIニュース

Google Cloud AIエージェント・ベイクオフは、単純なプロンプトエンジニアリングから厳密なエージェント工学への移行を強調し、本番環境対応のAIにはモジュラー型のマルチエージェントアーキテクチャが必要だと指摘している。複雑なタスクを専門サブエージェントに分解するなど5つの開発者向けヒントを提示した。

Google Developers AI·4月14日·★★★★

新AIモデル、1枚の写真から45分間のリップシンク動画をリアルタイム生成

LPM 1.0が、1枚の静止画からリアルタイムでリップシンク・表情・感情反応を含む動画を生成する技術を開発した。現在は研究段階である。

The Decoder·4月14日·★★★★

研究者が世界モデルの定義を明確化、テキスト動画生成AIは除外

国際研究チームがOpenWorldLibで世界モデル研究の統一を図り、Soraなどのテキスト動画生成モデルを定義から除外した。

The Decoder·4月12日

GoogleのGemma 4がスマホに無料の自律型AIを搭載、データは一切端末外に出ない

Googleがオープンソースモデル「Gemma 4」を発表した。このAIはテキスト・画像・音声を完全に端末内で処理し、自律的にWikipediaや地図などのツールを利用できる。クラウド不要でデータは端末から流出しない。

The Decoder·4月11日·★★★★

ChatGPT音声モードは弱いモデルで動作している

OpenAIのChatGPT音声モードは、古くて性能の低いモデル（GPT-4o時代のモデル）で動作しており、知識カットオフは2024年4月である。

Simon Willison Blog·4月11日

ChatGPTでのファイル操作

OpenAIはChatGPTでPDFやスプレッドシートなどのファイルをアップロードし、データ分析、文書要約、コンテンツ生成を行う方法を公開した。

OpenAI News·4月10日

Google Geminiがチャット内で調整・探索可能なインタラクティブな視覚化を生成

GoogleはGeminiがチャット内で直接インタラクティブな視覚化を生成する機能を追加した。ユーザーは生成されたグラフや図をその場で調整・探索できるようになった。

The Decoder·4月10日

階層的エージェントRAGシステムの構築：自律的エラー回復を備えたマルチモーダル推論

著者が、階層的エージェントRAGシステムが専門ワーカーを構造化されたオーケストレーションで調整し、複雑な企業分析ワークフローの精度・信頼性・説明可能性を向上させる方法を探る。

InfoQ·4月9日·★★★★

Metaが新モデル「Muse Spark」を発表、meta.aiチャットに注目ツールを追加

Metaが約1年ぶりに新モデル「Muse Spark」を発表した。APIは限定ユーザー向けのプレビュー版だが、meta.aiでログイン後に試用可能。

Simon Willison Blog·4月9日

GLM-5.1：長期的タスクへの取り組み

中国AI研究所Z.aiが、7540億パラメータの大規模言語モデル「GLM-5.1」を発表した。同モデルはMITライセンスで公開され、長期的タスク処理への対応を目指している。

Simon Willison Blog·4月8日

Deep Agents v0.5のリリース

Deep Agentsチームは、非同期サブエージェントやマルチモーダルファイルシステム対応などを搭載した「deepagents」と「deepagentsjs」の新版を公開した。これにより、メインエージェントがブロックされずにバックグラウンドで遠隔エージェントに作業を委譲できるようになった。

LangChain Blog·4月8日·★★★★

【AIニュース】グッドフライデー

Gemmaの好意的な評価が継続しており、Marc Andreesenのポッドキャストで高い評価を得ている。来週ロンドンで開催されるAIE Europeでは、OpenClawやPiなどの欧州発AIツールのクリエイターが登壇し、ライブ配信される。

Latent Space·4月4日·★★★★

Wan2.7-Videoが創作の自由をもたらす

通義実験室は、AI動画創作モデル「Wan2.7-Video」を発表した。同モデルは、生成だけでなく編集・復刻・再構築・駆動・継続など創作全工程をカバーし、より制御性の高い動画制作を可能にする。

通义大模型·4月3日·★★★★

Nvidiaが288GPUでMLPerf新記録を樹立、AMDとIntelは異なる戦いに注力

Nvidiaは288基のGPUでMLPerfベンチマークの新記録を達成した。一方、AMDとIntelは異なる評価指標を重視しており、直接比較は困難である。最新のMLPerfでは初めてマルチモーダルモデルと動画モデルが導入された。

The Decoder·4月2日

Google DeepMind、Gemma 4シリーズをApache 2.0ライセンスで公開

Google DeepMindは、最大256Kトークンのコンテキスト長に対応するオープンウェイトのマルチモーダルモデル「Gemma 4」シリーズを公開した。31B、26B MoE、エッジ向けモデルなど複数のサイズを備え、ローカルやエッジでのデプロイに最適化されている。

Smol AI News·4月2日·★★★★

PDFの図表はRAGで扱えるのか？6つの方法で検証して分かった“現実的な最適解”

本記事は、PDF内の図表をRAGで扱うための6つの手法（テキスト抽出・LLMによるOCR・マルチモーダルEmbedding等）を精度・コスト・処理時間の観点から比較検証し、実務で使える現実的な最適解を整理した。

HEROZ Tech Blog·3月31日

Cohere、音声認識ベンチマークでトップのオープンソースモデルをリリース

Cohereがオープンソースの音声認識モデルを発表し、ベンチマークでOpenAIのWhisperを含む全ての競合を上回った。

The Decoder·3月28日·★★★★

Gemini 3.1 Flash LiveはGoogleの最も自然なAI音声モデル

GoogleがGemini 3.1 Flash Liveを発表し、より高速で自然な音声会話を実現した。開発者は品質と速度を調整でき、価格はGemini 2.5と同等に維持される。

The Decoder·3月27日

ByteDanceの新AI動画生成モデル「Dreamina Seedance 2.0」がCapCutに搭載

ByteDanceがAI動画生成モデル「Dreamina Seedance 2.0」をCapCutに搭載した。同モデルは実在人物の顔や無許可知的財産からの動画生成に対する保護機能を内蔵している。

TechCrunch AI·3月27日

Cohereが文字起こし専用のオープンソース音声モデルを発表

Cohereが20億パラメータの軽量なオープンソース音声モデルを公開した。このモデルは消費者向けGPUで自己ホスト可能で、現在14言語をサポートしている。

TechCrunch AI·3月26日

Google、権利を有するデータで学習したAI音楽生成モデル「Lyria 3 Pro」を発表

GoogleがAI音楽生成モデル「Lyria 3 Pro」を発表した。同モデルは最大3分間の楽曲を生成でき、権利を有するデータで学習している点が特徴で、著作権問題を抱える競合他社と差別化している。

The Decoder·3月26日·★★★★

OpenAI、AI動画アプリ「Sora」のサービス終了を発表

OpenAIは、自社製AI動画アプリ「Sora」のサービスを終了すると発表した。筆者とカイ・フーは2026年の予測で意見が分かれており、筆者はディズニーとの提携によりSoraが主導権を握ると考えていたが、カイはユーザー基盤の拡大に長けたMetaの「Vibes」プラットフォームが勝つと予測していた。

Understanding AI·3月26日

OpenAI、SoraアプリとAPIを終了もChatGPT内でビデオモデル存続を示唆

OpenAIはSoraアプリとAPIを終了し、ディズニーは昨年12月締結の10億ドル契約から撤退した。同社はビデオモデルがChatGPT内で存続する可能性を示唆している。

The Decoder·3月25日

Google TVの新Gemini機能、スポーツチームなどの最新情報をファンに提供

GoogleがGoogle TVにGemini搭載の3つの新機能（視覚的応答、詳細分析、スポーツ要約）を追加し、ユーザーがスポーツチームなどの情報を最新状態に保てるようにした。

TechCrunch AI·3月25日

Google DeepmindのGemini 3.1 Flash-Liteがほぼリアルタイムでウェブサイトを生成

GoogleがGemini 3.1 Flash-Liteのデモで、完全なウェブサイトをリアルタイムで生成する機能を示した。高速で低コストだが、有用性については議論がある。

The Decoder·3月25日

ジャンプして遊ぶ：GeminiとMediaPipeでの構築

Googleは、Gemini CanvasとMediaPipe Pose Landmarkerを使用して、モーション制御ゲーム開発のワークフローを効率化する方法を発表した。開発者はGoogle AI Studioで低遅延モデルや安定したトラッキングポイントを最適化できる。

Google Developers AI·3月25日

ChatGPTが商品画像・価格・比較機能を備えたショッピングプラットフォームに変貌、ただし決済機能はなし

OpenAIはChatGPTに商品画像・価格表示・比較機能を追加し、視覚的ショッピング機能を導入する一方、自社決済システムを廃止して決済を小売業者に委ねる。

The Decoder·3月25日·★★★★

NVIDIA Nemotron 3エージェントの構築：推論、マルチモーダルRAG、音声、安全性

NVIDIAが、計画・推論・検索・安全制御を専門モデルが連携して処理するエージェントAIシステム「Nemotron 3」を開発した。

NVIDIA Developer Blog·3月25日·★★★★

ChatGPTにおける製品発見機能の強化

ChatGPTは、Agentic Commerce Protocolを活用して、視覚的に没入感のあるショッピング体験を提供し、製品発見、並列比較、販売業者統合を可能にした。

OpenAI News·3月24日·★★★★

音声エージェント評価の新フレームワーク（EVA）

研究者らが音声エージェントの性能評価のための新フレームワーク「EVA」を発表した。このフレームワークは、音声AIの能力を体系的に測定する標準化された評価手法を提供する。

Hugging Face Blog·3月24日·★★★★

SafetyPairs: 反事実的画像生成による安全性クリティカルな画像特徴の分離

ICLR 2026ワークショップで採択された論文では、侮辱的なジェスチャーなどの微妙な変化が画像の安全性を大きく変える問題に対し、既存のデータセットの曖昧さを克服するため、反事実的画像生成を用いて安全性クリティカルな特徴を分離する手法を提案している。

Apple Machine Learning·3月24日·★★★★

AAAI-2026 参加報告：サイバーエージェント村田氏がシンガポールで開催された人工知能国際会議に参加し、採択論文を発表

サイバーエージェントの AI チーム所属・村田氏は、1 月 20 日から 27 日にシンガポールで開催された人工知能研究の国際会議「AAAI-2026」に参加しました。同氏は学生時代から継続していた論文が採択され、過去最多の投稿数があった本会議で研究成果を発表しました。

CyberAgent Developers Blog·3月23日·★★★★

Step Plan養蝦套餐がリリース、開発者コミュニティ向け半額キャンペーン開始

階躍星辰がOpenClaw/Codingユーザー向け月額サブスクリプション「Step Plan」を発表。Step 3.5 Flashモデルを搭載した4段階のプランを提供し、開発者コミュニティ向けに半額割引を実施。

阶跃星辰·3月23日

← 前へ2 / 4次へ →

#マルチモーダル のAIニュース

llm 0.31 リリース

研究者が米政策当局に「ChatGPTの過ち」をワールドモデルで繰り返すよう警告

公式発表！阶跃と千里科技、全面戦略的パートナーシップを締結

Qwen3.6-27B：MoEルータ不要、フラッグシップ級のプログラミング能力

ChatGPT画像生成ツールが「思考」機能を搭載して強化

ChatGPTの新画像生成モデル「Images 2.0」、テキスト生成能力が驚くほど高い

OpenAI、完全にリアルなAI生成スクリーンショットで「GPT-Image 2」を予告

GPT-Image-2 の発表と AI ニュースのまとめ

合成データを用いた高速多言語OCRモデルの構築

AnthropicがClaude Designを発表、素早いビジュアル作成の新製品

Anthropic Claude Opus 4.7：全次元で前モデルより一歩進んだ

Grok音声テキスト変換およびテキスト音声変換API

AWS生成AIサービスで小売を変革

Google、マルチモーダルとエージェント機能を備えたGemma 4をApache 2.0で公開

アドビが新Firefly AIアシスタントでクリエイティブスイートをチャットボット化

Google の Gemini 3.1 Flash TTS モデルによる自然な音声合成ツール

Adobeの新Firefly AIアシスタントがCreative Cloudアプリでタスクを完了可能に

より優れたAIエージェントを構築する：エージェント・ベイクオフからの5つの開発者向けヒント