#マルチモーダル のAIニュース

99件の記事

Google、Gemini Embedding 2でテキスト・画像・動画・音声を単一ベクトル空間に統合

Googleが初のネイティブマルチモーダル埋め込みモデル「Gemini Embedding 2」を発表し、テキスト・画像・動画・音声・文書を単一ベクトル空間に統合することで、AIパイプラインでの個別モデル不要化を実現した。

The Decoder·3月12日·★★★★

ExcelとPowerPoint向けClaudeの進化

Anthropic社が、ExcelとPowerPoint向けのAIアシスタント「Claude」の機能向上を発表した。同社は、スプレッドシートとプレゼンテーションソフトでのデータ分析やコンテンツ作成支援を強化する新機能を追加した。

Claude Blog·3月11日·★★★★

ジョセフ・パラディーゾのセンシング革新が芸術・医療・生態学をつなぐ

MITのジョセフ・パラディーゾ氏は、物理学を基盤にセンシング技術を開発し、芸術・医療・生態学など複数分野にまたがる研究を推進している。

MIT ML News·3月11日

ChatGPTが数学と物理学をインタラクティブな視覚化で説明

ChatGPTが数学・物理学トピックでインタラクティブな視覚化機能を追加し、ユーザーが変数を調整してグラフをリアルタイム更新できるようになった。70以上の概念が利用可能。

The Decoder·3月11日·★★★★

ChatGPTが数学・科学概念を理解するためのインタラクティブな視覚化機能を追加

OpenAIは、ChatGPTに動的な視覚的説明機能を導入し、ユーザーが数式や変数、数学的関係のリアルタイム変化をインタラクティブな視覚化で直接操作できるようにした。

TechCrunch AI·3月11日·★★★★

Google、AI搭載「Ask Photos」検索機能に関するユーザーの苦情を受け入れ

Googleは、AI搭載の「Ask Photos」検索機能についてユーザーから寄せられた苦情を受け入れ、Google Photosの検索画面でユーザーが希望する検索体験を選択できるオプションを提供した。

TechCrunch AI·3月10日

AdobeがPhotoshop向けAIアシスタントを発表

AdobeがPhotoshopにAIアシスタントを導入し、FireflyにAI画像編集機能を追加した。

TechCrunch AI·3月10日·★★★★

ZoomがAI搭載オフィススイートを導入、会議用AIアバターは今月登場と発表

ZoomがAI搭載のオフィススイートを導入し、会議用AIアバターを今月提供開始すると発表した。同社は会議向けリアルタイムディープフェイク検出技術も導入する。

TechCrunch AI·3月10日·★★★★

マイクロソフト、CopilotにAnthropicのClaude Coworkを導入しOutlook、Teams、Excelでタスクを自動実行

マイクロソフトはCopilotにAnthropicのClaude Coworkを統合し、OpenAIではなくAnthropicのAIを使用してOutlook、Teams、Excelでのタスクを自律的に処理できるようにした。

The Decoder·3月10日·★★★★

LangSmith多モーダル評価機能

LangSmithで多モーダル評価機能が追加され、添付ファイルや画像の評価が可能に

X: LangChain·3月10日

研究者ら、動画AIモデルが単なる学習データ増加では解決できない推論の限界に直面と指摘

国際研究チームが最大規模の動画推論データセットを公開し、Sora 2やVeo 3.1などの最新AIモデルでも推論タスクでは人間に大きく劣ることを示した。

The Decoder·3月7日·★★★★

Nano Banana 2発表

Google AIがNano Banana 2を発表、画像生成を超える創造性の可能性

X: Google AI·3月7日

Descriptが大規模な多言語ビデオ吹き替えを可能にする方法

Descript社はOpenAIのモデルを活用し、意味とタイミングの両方を最適化した翻訳で、大規模な多言語ビデオ吹き替えを実現している。

OpenAI News·3月6日·★★★★

OpenAIがGPT-5.4 ThinkingとProを発表、コーディング・推論・コンピューター操作を統合

OpenAIがGPT-5.4を発表した。同モデルは初めてコーディング、コンピューター操作、推論を単一パッケージで統合したOpenAIの最高性能モデルである。

The Decoder·3月6日·★★★★

PAI公開、AI動画の進歩

PAIが公開され、AI動画技術の大きな進歩と評価

X: elvis·3月6日

リアルタイム長動画生成モデル発表

Helios、リアルタイム長動画生成モデルの論文公開

X: AK·3月5日

Perplexity音声モード発表

Perplexity Computerに音声操作機能が追加されました。

X: Perplexity·3月5日

Gemini 3.1 Flash-Lite

Googleが低価格モデルファミリー「Flash-Lite」の最新版「Gemini 3.1 Flash-Lite」を発表した。入力100万トークンあたり0.25ドル、出力100万トークンあたり1.5ドルで、Gemini 3.1 Proの1/8の価格を実現している。

Simon Willison Blog·3月4日

Claude Codeが音声モード機能を導入

Anthropic社がAIコーディングツール「Claude Code」に音声モード機能を追加し、AIコーディング分野での競争力を強化した。

TechCrunch AI·3月4日

Google DeepMind新機能発表

画像生成モデルがアスペクト比調整とアップスケール機能を追加

X: Google DeepMind·3月2日

Nano Banana 2発表

Google DeepMindが高速・低コストな画像生成モデルを公開

X: Google DeepMind·3月2日·★★★★

GammaがVercelでデザイン重視のエージェントを構築

Gamma社は、ユーザーが一言でレイアウト・間隔・階層を考慮した完全なプレゼンテーションを自動生成できる「デザイン優先」のAIエージェントをVercelで開発した。同社は初期メンバーの3割をデザイナーとして採用し、設計へのこだわりを製品哲学に反映している。

Vercel Blog·2月28日·★★★★

Kimi Code Plan正式アップグレード:3倍の利用枠を継続して享受

月之暗面がKimi Code Planをトークン課金方式に変更し、期間限定だった3倍利用枠を恒久化した。これにより開発者はK2.5多モーダルモデルを制限なく活用できるようになり、プログラミング体験が向上した。

月之暗面 Kimi·2月28日

Nano Banana 2発表

Demis Hassabisが新画像生成モデルを発表、性能向上

X: Demis Hassabis·2月27日

Nano Banana 2発表

複雑なビジュアル構築を容易にする新モデル

X: Google DeepMind·2月27日

Nano Banana 2:プロ仕様の機能と超高速処理を融合

Nano Banana社が最新の画像生成モデルを発表した。同モデルは高度な世界知識、製品化レベルの仕様、被写体の一貫性などを、高速処理で提供する。

Google DeepMind·2月27日·★★★★

アリババのオープンソースQwen 3.5、GPT-5 miniとClaude Sonnet 4.5に対抗し低コストを実現

アリババが新AIモデルQwen 3.5を発表。競合モデルと同等性能を低コストで提供し、AI市場の競争激化を示唆。

The Decoder·2月26日·★★★★

Qwen 3.5ファミリー発表

Qwen 3.5モデルファミリーがリリース、ビジョン機能内蔵

X: ollama·2月25日·★★★★

OpenAIファイル入力拡張

docx、pptx、csv、xlsxなど多様なファイル形式を直接入力可能に

X: OpenAI Developers·2月25日

ClaudeがExcelとPowerPointを自律的に切り替え可能に

AnthropicのAIアシスタントClaudeが、ExcelとPowerPoint間の作業を自動で切り替えられる新機能を発表。

The Decoder·2月25日·★★★★

Perplexity音声モードアップデート

PerplexityとCometで音声モードの新機能が全ユーザーに提供開始

X: Perplexity·2月25日

Apple研究者がFerret-UI Liteを発表、UIを見て操作するオンデバイスAIモデル

Appleが開発したFerret-UI Liteは、モバイルやデスクトップ画面を理解し、UI要素を操作できる3BパラメータのオンデバイスAIモデルです。

InfoQ·2月25日·★★★★

ClaudeがExcelとPowerPointに対応

ClaudeがExcelとPowerPointの分析機能をリサーチプレビューで提供開始

X: Claude·2月24日·★★★★

AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク

GPT-4oなどの多モーダル大規模言語モデルは、複数話者の会話状況での発話者追跡や役割維持に課題がある。AMUSEはこの問題に対処するベンチマークとフレームワークを提案。

Apple Machine Learning·2月24日·★★★★

Apple 推論と計画ワークショップ 2025

AppleがAIの推論と計画能力を向上させる研究を進めており、自律的なAIシステムの開発を目指している。

Apple Machine Learning·2月23日·★★★★

Google AI 3.1 Pro リリース

GoogleがAIモデル3.1 Proを消費者・開発者向け製品に導入

X: Google AI·2月20日

Qwen3.5がDifyで利用可能に

長文コンテキストとマルチモーダル対応のQwen3.5がDifyでリリース

X: Dify·2月18日

LWiAIポッドキャスト #234 - Opus 4.6、GPT-5.3-Codex、Seedance 2.0、GLM-5

AI技術の最新動向を紹介するポッドキャスト。Opus 4.6、GPT-5.3-Codex、Seedance 2.0、GLM-5などの新モデルやアップデートについて議論。

Last Week in AI·2月17日·★★★★

Google I/O 2026の準備を始めよう

Google I/Oが5月19日から20日に開催され、Android、AI、Chrome、Cloudの最新情報がライブストリームで配信されます。

Google Developers AI·2月17日

Windsurf 1.9552.24

Windowsでの自動更新とmacOSのUIちらつきの問題を修正したバージョンアップデート。

Windsurf Changelog·2月17日

AAAI-2026 参加報告

AI Shiftの村田が、2026年1月に開催された第40回AAAI人工知能国際会議に参加した経験を共有しています。

AI Shift Tech Blog·2月6日

NVIDIA GPUアクセラレーションエンドポイントを使用したKimi K2.5マルチモーダルVLMの構築

Kimiが最新のオープンソース視覚言語モデル「Kimi K2.5」を発表した。このモデルは汎用マルチモーダルモデルであり、NVIDIA GPUアクセラレーションエンドポイントを活用して構築できる。

NVIDIA Developer Blog·2月5日·★★★★

AI週間レビュー #334 - Kimi K2.5とコードエージェント、Genie 3、OpenClawとMoltbook

中国のMoonshotがオープンソースモデルKimi K2.5とコーディングエージェントを公開。GoogleはGenie 3のインタラクティブな世界構築プロトタイプをAI Ultra購読者に提供。

Last Week in AI·2月4日·★★★★

Windsurf Next 1.13.106

GoogleがGemini 3 Flashモデルを全ユーザーに公開した。このモデルはGemini 3 Pro級の推論能力とFlash級の速度・効率性を兼ね備え、エージェントワークフローやコーディングタスクに最適化されている。

Windsurf Next Changelog·12月27日·★★★★

GPTとGeminiのマルチモーダルドキュメント認識能力評価

LayerXのR&Dインターン生が、OpenAI GPTとGoogle GeminiのAPI単体を用いて、スライドや図表などのマルチモーダルドキュメント認識能力を評価した結果を紹介する。

LayerX Tech Blog·12月17日

AI週間レビュー #329 - GPT 5.2、GenAI.mil、ディズニーとSora

OpenAIがGPT-5.2モデルシリーズをリリースし、日常業務での利用を想定した「Instant」「Thinking」「Pro」の3バージョンを提供した。

Last Week in AI·12月16日·★★★★

FACTSベンチマークスイート:大規模言語モデルの事実性を体系的に評価

研究者らがFACTSベンチマークスイートを開発し、大規模言語モデルの事実性を体系的に評価する手法を提案した。

Google DeepMind·12月9日·★★★★

MetaとConservationXがSA-FARIデータセットを公開

10,000以上の注釈付き動画を含むAIデータセットを共同開発

X: AI at Meta·11月25日

Kaggle初参加の振り返り〜Shopeeコンペでソロ銀メダル獲得〜

MLエンジニアの川畑氏が、初参加のKaggleコンペ「Shopee Product Matching」で2426チーム中46位の銀メダルを獲得した経験を振り返っている。

ExaWizards Tech Blog·6月7日