#マルチモーダルai のAIニュース

100件の記事

多モーダル事前学習の新論文

言語モデルを超える多モーダル事前学習の研究発表

X: AK·3月5日·★★★★

画像生成の空間理解向上

報酬モデリングによる画像生成の空間理解向上に関する研究発表

X: AK·3月4日·★★★★

Claude Codeに音声機能追加

Claude Codeが音声機能をネイティブサポート開始

X: elvis·3月3日

画像への正確な文字書き込み機能

Google DeepMindが画像に正確な文字を書き込める新機能を発表

X: Google DeepMind·3月2日

NVIDIA GPUアクセラレーテッドエンドポイントを使用したQwen3.5 VLMによるネイティブマルチモーダルエージェントの開発

Alibabaが約4000億パラメータのネイティブマルチモーダルエージェント向けに設計されたオープンソースQwen3.5シリーズを発表した。

NVIDIA Developer Blog·2月28日·★★★★

Google、AI機能を追加したNano Banana 2をリリース

Googleが最新モデル「Nano Banana 2」を発表。Geminiの知識ベースを活用し、ウェブ検索からのリアルタイム情報と画像へのアクセスを提供し、より正確な主題描写を可能にした。

AI Business·2月28日

Gemini 3.1 Flash Image先行リリース

Gemini 3.1 Flash ImageがFlash本体より先にリリースされたニュース

X: Simon Willison·2月27日

AnthropicがVerceptを買収し、Claudeのコンピュータ画面読み取り・操作能力を強化

Anthropicはスタートアップ企業Verceptを買収し、同社の画面認識モデル「VyUI」を活用してAIアシスタント「Claude」のコンピュータ画面の読み取りと操作能力を向上させる。

The Decoder·2月27日·★★★★

MetaがVecGlypher発表

言語モデルによる統一ベクトルグリフ生成技術の論文公開

X: AK·2月27日

Googleがより高速な画像生成を実現するNano Banana 2モデルを発表

GoogleがNano Banana 2モデルを発表し、GeminiアプリとAIモードのデフォルトモデルとして採用した。同モデルは画像生成の速度向上を特徴とする。

TechCrunch AI·2月27日·★★★★

SkyReels-V4発表

マルチモーダル動画・音声生成・編集モデル

X: AK·2月27日

OllamaがOpenClawに視覚機能を追加

OllamaがOpenClawモデルに視覚機能をサポート、kimi-k2.5:cloudモデルを起動可能に

X: ollama·2月26日

GoogleがAIクリエイティブスタジオ「Flow」を新機能と統合機能で再始動

GoogleがAIクリエイティブスタジオ「Flow」を新機能と統合機能を追加して再リリースし、AIを活用したコンテンツ制作ツールの進化を示しています。

The Decoder·2月26日·★★★★

アドビの新Firefly「Quick Cut」ツール、テキストプロンプトから生映像をラフ編集に変換

アドビのFireflyが新機能「Quick Cut」を追加。テキストプロンプトから生映像を自動でラフ編集できるようになり、映像編集の効率化が期待される。

The Decoder·2月26日·★★★★

Perplexity Computer発表

全てのAI機能を統合した新システム「Perplexity Computer」を発表

X: Perplexity·2月26日·★★★★

AIが細胞生物学における全体像の把握を支援

AIを活用した手法により、細胞の包括的情報を提供することで、科学者が疾患メカニズムをより深く理解し、実験計画を立てるのを支援する。

MIT ML News·2月25日·★★★★

AnthropicがVerceptを買収しClaudeのコンピュータ利用能力を向上

AnthropicがVerceptを買収し、AIアシスタントClaudeのコンピュータ操作能力を強化。AIの実用性向上を目指す。

Anthropic News·2月25日·★★★★

Amazon Rekognition、Amazon Neptune、Amazon Bedrockを使用したインテリジェントな写真検索システムの構築

AWS CDKを活用し、Amazon Rekognitionで顔・物体検出、Amazon Neptuneで関係性マッピング、Amazon BedrockでAIキャプション生成を統合した包括的な写真検索システムの構築方法を紹介。

AWS Machine Learning Blog·2月25日·★★★★

Google DeepMind、音楽AIツールを発表

Google DeepMindが音楽AIツール「Music AI Sandbox」を発表、音楽家と協力

X: Google DeepMind·2月25日

音楽生成AI「ProducerAI」がGoogle Labsに参加

Wyclef Jeanが新曲でGoogleのAI音楽ツールを使用。ProducerAIがGoogle Labsに加わり、AIによる音楽制作の可能性を示す。

TechCrunch AI·2月25日·★★★★

VLANeXtモデル構築レシピ

強力なVLAモデル構築のための手法とレシピを紹介

X: AK·2月25日·★★★★

大規模動画推論スイート発表

新しい動画推論モデルスイートの研究論文が公開されました。

X: AK·2月25日

ParticleのAIニュースアプリがポッドキャストから興味深いクリップを抽出

AIニュースアプリParticleがポッドキャストから重要な瞬間を抽出し、関連記事と共に短く関連性の高いクリップを即座に再生できる機能を追加しました。

TechCrunch AI·2月24日·★★★★

Google Unified Latents発表

Googleが新しい潜在変数モデル「Unified Latents」を発表

X: AK·2月20日·★★★★

AI Gatewayによる動画生成

AI Gatewayが動画生成機能を追加し、写真のようにリアルな画質と同期した音声を持つ映画的な動画を作成できるようになった。AI SDK 6を通じて、テキストや画像と同じインターフェースでプログラム的に動画を生成可能。

Vercel Blog·2月19日·★★★★

なぜ12年前の予測論文は時代の試練に耐え続けているのか

アマゾン研究者が2014年に発表したラテンアメリカの社会不安予測論文が、2025年KDDで「時代を超えた価値賞」を受賞した。

Amazon Science·2月17日·★★★★

Claude Sonnet 4.6の紹介

Claude Sonnet 4.6の新バージョンがリリースされました。AIモデルの性能向上と新機能を提供します。

Anthropic News·2月17日·★★★★

「思考」がより深く、生成がより正確に|Seedream 5.0 Lite リリース

バイトダンスがSeedream 5.0 Liteをリリースし、理解・推論・生成能力を全面的に向上させた。

字节跳动Seed·2月13日·★★★★

Seedance 2.0 正式リリース

バイトダンスが多モーダル音声・映像連合生成モデル「Seedance 2.0」を発表し、複雑な動き表現でSOTAを達成した。

字节跳动Seed·2月12日·★★★★

R²D²:NVIDIA Isaac Labによるマルチモーダルロボット学習の拡張

NVIDIA Isaac Labが開発したR²D²は、マルチモーダルロボット学習を拡張する技術で、ロボットの知能向上を目指しています。

NVIDIA Developer Blog·2月11日·★★★★

Nemotronを使用したRAG向け文書処理パイプラインの構築方法

NVIDIAが、複雑なPDFの解析、ネストされた表の抽出、チャート内データの認識を可能にする、RAG(検索拡張生成)向け文書処理パイプラインの構築方法を紹介している。

NVIDIA Developer Blog·2月5日·★★★★

チャットボットを超えて:信頼できるAIのための青写真

Google開発者エキスパートチームがサンダーヒル・レースウェイパークで「信頼できるAIフレームワーク」をテストした。

Google Developers AI·1月29日·★★★★

Multimodal reinforcement learning with agentic verifier for AI agents

Microsoft Research·1月21日·★★★★

MetaがPE-AVをオープンソース化

Metaが視聴覚エンコーダPE-AVをオープンソースとして公開。

X: AI at Meta·12月19日·★★★★

Meta研究者AMA開催

SAM 3、SAM 3D、SAM Audioの研究者がReddit AMAを実施

X: AI at Meta·12月18日

MetaのSAM新機能発表

SAM Audio、SAM 3D、SAM 3の新機能をSegment Anything Playgroundで公開

X: AI at Meta·12月17日

SAM Audio技術の進歩

MetaのSAM Audioが音声分離技術で従来を上回る性能を達成

X: AI at Meta·12月17日·★★★★

MetaがSAM Audioを発表

複雑な音声から任意の音を分離する初の統合モデル

X: AI at Meta·12月17日·★★★★

Tinker: 一般提供開始と視覚入力機能

Thinking Machines LabがTinkerの一般提供を開始し、視覚入力機能を追加しました。

Thinking Machines Lab·12月12日·★★★★

Gemini APIで利用可能なGemini 2.5 FlashおよびPro、Live API、Veo 2

GoogleがGemini APIでGemini 2.5 FlashとProモデル、リアルタイム処理のLive API、動画生成モデルVeo 2を提供開始した。

Google Developers JP·4月10日·★★★★

グロークをすべての人に

グロークは速度向上、精度向上、多言語サポート改善され、𝕏プラットフォームで全ユーザーが利用可能になりました。

xAI News·12月12日·★★★★

Grok画像生成機能リリース

Grokに新しい画像生成モデル「Aurora」が追加され、𝕏プラットフォームで利用可能になりました。

xAI News·12月9日·★★★★

APIパブリックベータ

開発者がGrok基盤モデルをAPIで利用可能。2024年末まで月25ドルの無料クレジットを提供するパブリックベータを実施。

xAI News·11月4日·★★★★

シリーズB資金調達ラウンド

xAIが60億ドルのシリーズB資金調達を発表しました。

xAI News·5月26日·★★★★

Grok-1.5 ビジョンプレビュー

初のマルチモーダルモデルでデジタル世界と物理世界を接続する。

xAI News·4月12日·★★★★

VideoPrism: 映像理解のための基盤的視覚エンコーダ

Google Researchの研究者が、映像理解のための基盤的視覚エンコーダ「VideoPrism」を発表した。このモデルは多様な映像タスクに対応し、映像分析技術の汎用性向上を目指している。

Google Research Blog·2月23日·★★★★

Windowsプレビュー

OllamaがWindowsでプレビュー公開され、GPUアクセラレーション対応のネイティブ環境で大規模言語モデルの実行・作成が可能になりました。

Ollama Blog·2月15日

視覚モデル

LLaVA 1.6(7B、13B、34Bパラメータ)が利用可能に。高解像度画像対応、文字認識と論理的推論が向上。

Ollama Blog·2月2日·★★★★

PythonとJavaScriptライブラリ

OllamaのPythonおよびJavaScriptライブラリの初版が公開され、数行のコードでアプリケーションとの統合が可能になりました。両ライブラリはREST APIの全機能を備え、使い慣れた設計で互換性があります。

Ollama Blog·1月23日

深層学習を用いた任意のオブジェクトに対する自然言語意味検索の構築方法

深層学習を活用し、自然言語クエリで任意のオブジェクトを意味的に検索するシステムの構築方法を解説。

Hamel Husain·5月29日·★★★★