#マルチモーダル のAIニュース
99件の記事
Google、Gemini Embedding 2でテキスト・画像・動画・音声を単一ベクトル空間に統合
Googleが初のネイティブマルチモーダル埋め込みモデル「Gemini Embedding 2」を発表し、テキスト・画像・動画・音声・文書を単一ベクトル空間に統合することで、AIパイプラインでの個別モデル不要化を実現した。
ExcelとPowerPoint向けClaudeの進化
Anthropic社が、ExcelとPowerPoint向けのAIアシスタント「Claude」の機能向上を発表した。同社は、スプレッドシートとプレゼンテーションソフトでのデータ分析やコンテンツ作成支援を強化する新機能を追加した。
ジョセフ・パラディーゾのセンシング革新が芸術・医療・生態学をつなぐ
MITのジョセフ・パラディーゾ氏は、物理学を基盤にセンシング技術を開発し、芸術・医療・生態学など複数分野にまたがる研究を推進している。
ChatGPTが数学と物理学をインタラクティブな視覚化で説明
ChatGPTが数学・物理学トピックでインタラクティブな視覚化機能を追加し、ユーザーが変数を調整してグラフをリアルタイム更新できるようになった。70以上の概念が利用可能。
ChatGPTが数学・科学概念を理解するためのインタラクティブな視覚化機能を追加
OpenAIは、ChatGPTに動的な視覚的説明機能を導入し、ユーザーが数式や変数、数学的関係のリアルタイム変化をインタラクティブな視覚化で直接操作できるようにした。
Google、AI搭載「Ask Photos」検索機能に関するユーザーの苦情を受け入れ
Googleは、AI搭載の「Ask Photos」検索機能についてユーザーから寄せられた苦情を受け入れ、Google Photosの検索画面でユーザーが希望する検索体験を選択できるオプションを提供した。
AdobeがPhotoshop向けAIアシスタントを発表
AdobeがPhotoshopにAIアシスタントを導入し、FireflyにAI画像編集機能を追加した。
ZoomがAI搭載オフィススイートを導入、会議用AIアバターは今月登場と発表
ZoomがAI搭載のオフィススイートを導入し、会議用AIアバターを今月提供開始すると発表した。同社は会議向けリアルタイムディープフェイク検出技術も導入する。
マイクロソフト、CopilotにAnthropicのClaude Coworkを導入しOutlook、Teams、Excelでタスクを自動実行
マイクロソフトはCopilotにAnthropicのClaude Coworkを統合し、OpenAIではなくAnthropicのAIを使用してOutlook、Teams、Excelでのタスクを自律的に処理できるようにした。
LangSmith多モーダル評価機能
LangSmithで多モーダル評価機能が追加され、添付ファイルや画像の評価が可能に
研究者ら、動画AIモデルが単なる学習データ増加では解決できない推論の限界に直面と指摘
国際研究チームが最大規模の動画推論データセットを公開し、Sora 2やVeo 3.1などの最新AIモデルでも推論タスクでは人間に大きく劣ることを示した。
Nano Banana 2発表
Google AIがNano Banana 2を発表、画像生成を超える創造性の可能性
Descriptが大規模な多言語ビデオ吹き替えを可能にする方法
Descript社はOpenAIのモデルを活用し、意味とタイミングの両方を最適化した翻訳で、大規模な多言語ビデオ吹き替えを実現している。
OpenAIがGPT-5.4 ThinkingとProを発表、コーディング・推論・コンピューター操作を統合
OpenAIがGPT-5.4を発表した。同モデルは初めてコーディング、コンピューター操作、推論を単一パッケージで統合したOpenAIの最高性能モデルである。
PAI公開、AI動画の進歩
PAIが公開され、AI動画技術の大きな進歩と評価
リアルタイム長動画生成モデル発表
Helios、リアルタイム長動画生成モデルの論文公開
Perplexity音声モード発表
Perplexity Computerに音声操作機能が追加されました。
Gemini 3.1 Flash-Lite
Googleが低価格モデルファミリー「Flash-Lite」の最新版「Gemini 3.1 Flash-Lite」を発表した。入力100万トークンあたり0.25ドル、出力100万トークンあたり1.5ドルで、Gemini 3.1 Proの1/8の価格を実現している。
Claude Codeが音声モード機能を導入
Anthropic社がAIコーディングツール「Claude Code」に音声モード機能を追加し、AIコーディング分野での競争力を強化した。
Google DeepMind新機能発表
画像生成モデルがアスペクト比調整とアップスケール機能を追加
Nano Banana 2発表
Google DeepMindが高速・低コストな画像生成モデルを公開
GammaがVercelでデザイン重視のエージェントを構築
Gamma社は、ユーザーが一言でレイアウト・間隔・階層を考慮した完全なプレゼンテーションを自動生成できる「デザイン優先」のAIエージェントをVercelで開発した。同社は初期メンバーの3割をデザイナーとして採用し、設計へのこだわりを製品哲学に反映している。
Kimi Code Plan正式アップグレード:3倍の利用枠を継続して享受
月之暗面がKimi Code Planをトークン課金方式に変更し、期間限定だった3倍利用枠を恒久化した。これにより開発者はK2.5多モーダルモデルを制限なく活用できるようになり、プログラミング体験が向上した。
Nano Banana 2発表
Demis Hassabisが新画像生成モデルを発表、性能向上
Nano Banana 2発表
複雑なビジュアル構築を容易にする新モデル
Nano Banana 2:プロ仕様の機能と超高速処理を融合
Nano Banana社が最新の画像生成モデルを発表した。同モデルは高度な世界知識、製品化レベルの仕様、被写体の一貫性などを、高速処理で提供する。
アリババのオープンソースQwen 3.5、GPT-5 miniとClaude Sonnet 4.5に対抗し低コストを実現
アリババが新AIモデルQwen 3.5を発表。競合モデルと同等性能を低コストで提供し、AI市場の競争激化を示唆。
Qwen 3.5ファミリー発表
Qwen 3.5モデルファミリーがリリース、ビジョン機能内蔵
OpenAIファイル入力拡張
docx、pptx、csv、xlsxなど多様なファイル形式を直接入力可能に
ClaudeがExcelとPowerPointを自律的に切り替え可能に
AnthropicのAIアシスタントClaudeが、ExcelとPowerPoint間の作業を自動で切り替えられる新機能を発表。
Perplexity音声モードアップデート
PerplexityとCometで音声モードの新機能が全ユーザーに提供開始
Apple研究者がFerret-UI Liteを発表、UIを見て操作するオンデバイスAIモデル
Appleが開発したFerret-UI Liteは、モバイルやデスクトップ画面を理解し、UI要素を操作できる3BパラメータのオンデバイスAIモデルです。
ClaudeがExcelとPowerPointに対応
ClaudeがExcelとPowerPointの分析機能をリサーチプレビューで提供開始
AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク
GPT-4oなどの多モーダル大規模言語モデルは、複数話者の会話状況での発話者追跡や役割維持に課題がある。AMUSEはこの問題に対処するベンチマークとフレームワークを提案。
Apple 推論と計画ワークショップ 2025
AppleがAIの推論と計画能力を向上させる研究を進めており、自律的なAIシステムの開発を目指している。
Google AI 3.1 Pro リリース
GoogleがAIモデル3.1 Proを消費者・開発者向け製品に導入
Qwen3.5がDifyで利用可能に
長文コンテキストとマルチモーダル対応のQwen3.5がDifyでリリース
LWiAIポッドキャスト #234 - Opus 4.6、GPT-5.3-Codex、Seedance 2.0、GLM-5
AI技術の最新動向を紹介するポッドキャスト。Opus 4.6、GPT-5.3-Codex、Seedance 2.0、GLM-5などの新モデルやアップデートについて議論。
Google I/O 2026の準備を始めよう
Google I/Oが5月19日から20日に開催され、Android、AI、Chrome、Cloudの最新情報がライブストリームで配信されます。
Windsurf 1.9552.24
Windowsでの自動更新とmacOSのUIちらつきの問題を修正したバージョンアップデート。
AAAI-2026 参加報告
AI Shiftの村田が、2026年1月に開催された第40回AAAI人工知能国際会議に参加した経験を共有しています。
NVIDIA GPUアクセラレーションエンドポイントを使用したKimi K2.5マルチモーダルVLMの構築
Kimiが最新のオープンソース視覚言語モデル「Kimi K2.5」を発表した。このモデルは汎用マルチモーダルモデルであり、NVIDIA GPUアクセラレーションエンドポイントを活用して構築できる。
AI週間レビュー #334 - Kimi K2.5とコードエージェント、Genie 3、OpenClawとMoltbook
中国のMoonshotがオープンソースモデルKimi K2.5とコーディングエージェントを公開。GoogleはGenie 3のインタラクティブな世界構築プロトタイプをAI Ultra購読者に提供。
Windsurf Next 1.13.106
GoogleがGemini 3 Flashモデルを全ユーザーに公開した。このモデルはGemini 3 Pro級の推論能力とFlash級の速度・効率性を兼ね備え、エージェントワークフローやコーディングタスクに最適化されている。
GPTとGeminiのマルチモーダルドキュメント認識能力評価
LayerXのR&Dインターン生が、OpenAI GPTとGoogle GeminiのAPI単体を用いて、スライドや図表などのマルチモーダルドキュメント認識能力を評価した結果を紹介する。
AI週間レビュー #329 - GPT 5.2、GenAI.mil、ディズニーとSora
OpenAIがGPT-5.2モデルシリーズをリリースし、日常業務での利用を想定した「Instant」「Thinking」「Pro」の3バージョンを提供した。
FACTSベンチマークスイート:大規模言語モデルの事実性を体系的に評価
研究者らがFACTSベンチマークスイートを開発し、大規模言語モデルの事実性を体系的に評価する手法を提案した。
MetaとConservationXがSA-FARIデータセットを公開
10,000以上の注釈付き動画を含むAIデータセットを共同開発
Kaggle初参加の振り返り〜Shopeeコンペでソロ銀メダル獲得〜
MLエンジニアの川畑氏が、初参加のKaggleコンペ「Shopee Product Matching」で2426チーム中46位の銀メダルを獲得した経験を振り返っている。