#マルチモーダルai のAIニュース
100件の記事
多モーダル事前学習の新論文
言語モデルを超える多モーダル事前学習の研究発表
画像生成の空間理解向上
報酬モデリングによる画像生成の空間理解向上に関する研究発表
Claude Codeに音声機能追加
Claude Codeが音声機能をネイティブサポート開始
画像への正確な文字書き込み機能
Google DeepMindが画像に正確な文字を書き込める新機能を発表
NVIDIA GPUアクセラレーテッドエンドポイントを使用したQwen3.5 VLMによるネイティブマルチモーダルエージェントの開発
Alibabaが約4000億パラメータのネイティブマルチモーダルエージェント向けに設計されたオープンソースQwen3.5シリーズを発表した。
Google、AI機能を追加したNano Banana 2をリリース
Googleが最新モデル「Nano Banana 2」を発表。Geminiの知識ベースを活用し、ウェブ検索からのリアルタイム情報と画像へのアクセスを提供し、より正確な主題描写を可能にした。
Gemini 3.1 Flash Image先行リリース
Gemini 3.1 Flash ImageがFlash本体より先にリリースされたニュース
AnthropicがVerceptを買収し、Claudeのコンピュータ画面読み取り・操作能力を強化
Anthropicはスタートアップ企業Verceptを買収し、同社の画面認識モデル「VyUI」を活用してAIアシスタント「Claude」のコンピュータ画面の読み取りと操作能力を向上させる。
MetaがVecGlypher発表
言語モデルによる統一ベクトルグリフ生成技術の論文公開
Googleがより高速な画像生成を実現するNano Banana 2モデルを発表
GoogleがNano Banana 2モデルを発表し、GeminiアプリとAIモードのデフォルトモデルとして採用した。同モデルは画像生成の速度向上を特徴とする。
SkyReels-V4発表
マルチモーダル動画・音声生成・編集モデル
OllamaがOpenClawに視覚機能を追加
OllamaがOpenClawモデルに視覚機能をサポート、kimi-k2.5:cloudモデルを起動可能に
GoogleがAIクリエイティブスタジオ「Flow」を新機能と統合機能で再始動
GoogleがAIクリエイティブスタジオ「Flow」を新機能と統合機能を追加して再リリースし、AIを活用したコンテンツ制作ツールの進化を示しています。
アドビの新Firefly「Quick Cut」ツール、テキストプロンプトから生映像をラフ編集に変換
アドビのFireflyが新機能「Quick Cut」を追加。テキストプロンプトから生映像を自動でラフ編集できるようになり、映像編集の効率化が期待される。
Perplexity Computer発表
全てのAI機能を統合した新システム「Perplexity Computer」を発表
AIが細胞生物学における全体像の把握を支援
AIを活用した手法により、細胞の包括的情報を提供することで、科学者が疾患メカニズムをより深く理解し、実験計画を立てるのを支援する。
AnthropicがVerceptを買収しClaudeのコンピュータ利用能力を向上
AnthropicがVerceptを買収し、AIアシスタントClaudeのコンピュータ操作能力を強化。AIの実用性向上を目指す。
Amazon Rekognition、Amazon Neptune、Amazon Bedrockを使用したインテリジェントな写真検索システムの構築
AWS CDKを活用し、Amazon Rekognitionで顔・物体検出、Amazon Neptuneで関係性マッピング、Amazon BedrockでAIキャプション生成を統合した包括的な写真検索システムの構築方法を紹介。
Google DeepMind、音楽AIツールを発表
Google DeepMindが音楽AIツール「Music AI Sandbox」を発表、音楽家と協力
音楽生成AI「ProducerAI」がGoogle Labsに参加
Wyclef Jeanが新曲でGoogleのAI音楽ツールを使用。ProducerAIがGoogle Labsに加わり、AIによる音楽制作の可能性を示す。
VLANeXtモデル構築レシピ
強力なVLAモデル構築のための手法とレシピを紹介
大規模動画推論スイート発表
新しい動画推論モデルスイートの研究論文が公開されました。
ParticleのAIニュースアプリがポッドキャストから興味深いクリップを抽出
AIニュースアプリParticleがポッドキャストから重要な瞬間を抽出し、関連記事と共に短く関連性の高いクリップを即座に再生できる機能を追加しました。
Google Unified Latents発表
Googleが新しい潜在変数モデル「Unified Latents」を発表
AI Gatewayによる動画生成
AI Gatewayが動画生成機能を追加し、写真のようにリアルな画質と同期した音声を持つ映画的な動画を作成できるようになった。AI SDK 6を通じて、テキストや画像と同じインターフェースでプログラム的に動画を生成可能。
なぜ12年前の予測論文は時代の試練に耐え続けているのか
アマゾン研究者が2014年に発表したラテンアメリカの社会不安予測論文が、2025年KDDで「時代を超えた価値賞」を受賞した。
Claude Sonnet 4.6の紹介
Claude Sonnet 4.6の新バージョンがリリースされました。AIモデルの性能向上と新機能を提供します。
「思考」がより深く、生成がより正確に|Seedream 5.0 Lite リリース
バイトダンスがSeedream 5.0 Liteをリリースし、理解・推論・生成能力を全面的に向上させた。
Seedance 2.0 正式リリース
バイトダンスが多モーダル音声・映像連合生成モデル「Seedance 2.0」を発表し、複雑な動き表現でSOTAを達成した。
R²D²:NVIDIA Isaac Labによるマルチモーダルロボット学習の拡張
NVIDIA Isaac Labが開発したR²D²は、マルチモーダルロボット学習を拡張する技術で、ロボットの知能向上を目指しています。
Nemotronを使用したRAG向け文書処理パイプラインの構築方法
NVIDIAが、複雑なPDFの解析、ネストされた表の抽出、チャート内データの認識を可能にする、RAG(検索拡張生成)向け文書処理パイプラインの構築方法を紹介している。
チャットボットを超えて:信頼できるAIのための青写真
Google開発者エキスパートチームがサンダーヒル・レースウェイパークで「信頼できるAIフレームワーク」をテストした。
Multimodal reinforcement learning with agentic verifier for AI agents
MetaがPE-AVをオープンソース化
Metaが視聴覚エンコーダPE-AVをオープンソースとして公開。
Meta研究者AMA開催
SAM 3、SAM 3D、SAM Audioの研究者がReddit AMAを実施
MetaのSAM新機能発表
SAM Audio、SAM 3D、SAM 3の新機能をSegment Anything Playgroundで公開
SAM Audio技術の進歩
MetaのSAM Audioが音声分離技術で従来を上回る性能を達成
MetaがSAM Audioを発表
複雑な音声から任意の音を分離する初の統合モデル
Tinker: 一般提供開始と視覚入力機能
Thinking Machines LabがTinkerの一般提供を開始し、視覚入力機能を追加しました。
Gemini APIで利用可能なGemini 2.5 FlashおよびPro、Live API、Veo 2
GoogleがGemini APIでGemini 2.5 FlashとProモデル、リアルタイム処理のLive API、動画生成モデルVeo 2を提供開始した。
グロークをすべての人に
グロークは速度向上、精度向上、多言語サポート改善され、𝕏プラットフォームで全ユーザーが利用可能になりました。
Grok画像生成機能リリース
Grokに新しい画像生成モデル「Aurora」が追加され、𝕏プラットフォームで利用可能になりました。
APIパブリックベータ
開発者がGrok基盤モデルをAPIで利用可能。2024年末まで月25ドルの無料クレジットを提供するパブリックベータを実施。
シリーズB資金調達ラウンド
xAIが60億ドルのシリーズB資金調達を発表しました。
Grok-1.5 ビジョンプレビュー
初のマルチモーダルモデルでデジタル世界と物理世界を接続する。
VideoPrism: 映像理解のための基盤的視覚エンコーダ
Google Researchの研究者が、映像理解のための基盤的視覚エンコーダ「VideoPrism」を発表した。このモデルは多様な映像タスクに対応し、映像分析技術の汎用性向上を目指している。
Windowsプレビュー
OllamaがWindowsでプレビュー公開され、GPUアクセラレーション対応のネイティブ環境で大規模言語モデルの実行・作成が可能になりました。
視覚モデル
LLaVA 1.6(7B、13B、34Bパラメータ)が利用可能に。高解像度画像対応、文字認識と論理的推論が向上。
PythonとJavaScriptライブラリ
OllamaのPythonおよびJavaScriptライブラリの初版が公開され、数行のコードでアプリケーションとの統合が可能になりました。両ライブラリはREST APIの全機能を備え、使い慣れた設計で互換性があります。
深層学習を用いた任意のオブジェクトに対する自然言語意味検索の構築方法
深層学習を活用し、自然言語クエリで任意のオブジェクトを意味的に検索するシステムの構築方法を解説。