#マルチモーダル のAIニュース

133件の記事

GammaがVercelでデザイン重視のエージェントを構築

Gamma社は、ユーザーが一言でレイアウト・間隔・階層を考慮した完全なプレゼンテーションを自動生成できる「デザイン優先」のAIエージェントをVercelで開発した。同社は初期メンバーの3割をデザイナーとして採用し、設計へのこだわりを製品哲学に反映している。

Vercel Blog·2月28日·★★★★

Kimi Code Plan正式アップグレード:3倍の利用枠を継続して享受

月之暗面がKimi Code Planをトークン課金方式に変更し、期間限定だった3倍利用枠を恒久化した。これにより開発者はK2.5多モーダルモデルを制限なく活用できるようになり、プログラミング体験が向上した。

月之暗面 Kimi·2月28日

Nano Banana 2:プロ仕様の機能と超高速処理を融合

Nano Banana社が最新の画像生成モデルを発表した。同モデルは高度な世界知識、製品化レベルの仕様、被写体の一貫性などを、高速処理で提供する。

Google DeepMind·2月27日·★★★★

アリババのオープンソースQwen 3.5、GPT-5 miniとClaude Sonnet 4.5に対抗し低コストを実現

アリババが新AIモデルQwen 3.5を発表。競合モデルと同等性能を低コストで提供し、AI市場の競争激化を示唆。

The Decoder·2月26日·★★★★

ClaudeがExcelとPowerPointを自律的に切り替え可能に

AnthropicのAIアシスタントClaudeが、ExcelとPowerPoint間の作業を自動で切り替えられる新機能を発表。

The Decoder·2月25日·★★★★

Apple研究者がFerret-UI Liteを発表、UIを見て操作するオンデバイスAIモデル

Appleが開発したFerret-UI Liteは、モバイルやデスクトップ画面を理解し、UI要素を操作できる3BパラメータのオンデバイスAIモデルです。

InfoQ·2月25日·★★★★

AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク

GPT-4oなどの多モーダル大規模言語モデルは、複数話者の会話状況での発話者追跡や役割維持に課題がある。AMUSEはこの問題に対処するベンチマークとフレームワークを提案。

Apple Machine Learning·2月24日·★★★★

Apple 推論と計画ワークショップ 2025

AppleがAIの推論と計画能力を向上させる研究を進めており、自律的なAIシステムの開発を目指している。

Apple Machine Learning·2月23日·★★★★

LWiAIポッドキャスト #234 - Opus 4.6、GPT-5.3-Codex、Seedance 2.0、GLM-5

AI技術の最新動向を紹介するポッドキャスト。Opus 4.6、GPT-5.3-Codex、Seedance 2.0、GLM-5などの新モデルやアップデートについて議論。

Last Week in AI·2月17日·★★★★

Google I/O 2026の準備を始めよう

Google I/Oが5月19日から20日に開催され、Android、AI、Chrome、Cloudの最新情報がライブストリームで配信されます。

Google Developers AI·2月17日

Windsurf エディタ 1.9552.24 リリース:新モデル追加と不具合修正

Windsurf はエディタのバージョン 1.9552.24 をリリースし、GitHub プルリクエスト拡張機能との互換性を修正しました。また、Gemini 3.1 Pro や Claude Sonnet 4.6 など新モデルを追加し、自己サービスユーザー向けに期間限定価格で提供を開始しました。

Windsurf Changelog·2月17日

AAAI-2026 参加報告:サイバーエージェント村田氏がシンガポールで開催された人工知能国際会議に参加し、採択論文を発表

サイバーエージェントの AI チーム所属・村田氏は、1 月 20 日から 27 日にシンガポールで開催された人工知能研究の国際会議「AAAI-2026」に参加しました。同氏は学生時代から継続していた論文が採択され、過去最多の投稿数があった本会議で研究成果を発表しました。

AI Shift Tech Blog·2月6日

NVIDIA GPUアクセラレーションエンドポイントを使用したKimi K2.5マルチモーダルVLMの構築

Kimiが最新のオープンソース視覚言語モデル「Kimi K2.5」を発表した。このモデルは汎用マルチモーダルモデルであり、NVIDIA GPUアクセラレーションエンドポイントを活用して構築できる。

NVIDIA Developer Blog·2月5日·★★★★

AI週間レビュー #334 - Kimi K2.5とコードエージェント、Genie 3、OpenClawとMoltbook

中国のMoonshotがオープンソースモデルKimi K2.5とコーディングエージェントを公開。GoogleはGenie 3のインタラクティブな世界構築プロトタイプをAI Ultra購読者に提供。

Last Week in AI·2月4日·★★★★

Grok Imagineがfalプラットフォームで利用可能に

xAIは、画像と動画の生成・編集を統合した「Grok Imagine」をAI開発プラットフォーム「fal」で提供開始。複数のモデルエンドポイントを単一スタックに統合し、アイデアから完成品までの制作プロセスを高速化した。

fal.ai Blog·1月29日·★★★★

D4RT:AIに4次元で世界を見ることを教える

D4RTは、従来の方法よりも最大300倍高速な統合的な4次元再構築と追跡を実現する技術です。

Google DeepMind·1月16日·★★★★

Windsurf Next 1.13.106 の更新:Gemini 3 Flash が全ユーザーに提供開始

Windsurf Next 1.13.106 は、推論能力と高速性を兼ね備えた Gemini 3 Flash を全ユーザーに公開しました。このモデルはコーディングやエージェントワークフローに適しており、前世代より 3 倍高速な応答を実現しています。

Windsurf Next Changelog·12月27日·★★★★

Windsurf 1.13.5:Gemini 3 Flashの全ユーザー向け提供開始

Windsurfは、Gemini 3 Flashを全ユーザーに提供開始した。このモデルはPro級の推論能力とFlash級の速度を併せ持ち、反復開発やコーディング作業に最適化されている。

Windsurf Changelog·12月27日·★★★★

GPTとGeminiのマルチモーダルドキュメント認識能力評価

LayerXのR&Dインターン生が、OpenAI GPTとGoogle GeminiのAPI単体を用いて、スライドや図表などのマルチモーダルドキュメント認識能力を評価した結果を紹介する。

LayerX Tech Blog·12月17日

AI週間レビュー #329 - GPT 5.2、GenAI.mil、ディズニーとSora

OpenAIがGPT-5.2モデルシリーズをリリースし、日常業務での利用を想定した「Instant」「Thinking」「Pro」の3バージョンを提供した。

Last Week in AI·12月16日·★★★★

最新のSpeechLLMを用いた音声データからのエンティティ抽出の1年ぶりの検証

AI Shiftが最新のSpeechLLMで音声データからのエンティティ抽出を検証。昨年のOpenAI gpt-4o-audioの取り組みから1年後の進展を報告。

AI Shift Tech Blog·12月15日

Agent Lightning:AIエージェントに強化学習をコード書き換えなしで追加

Microsoft Researchは「Agent Lightning」を開発し、AIエージェントに強化学習をコード書き換えなしで適用する手法を提供した。

Microsoft Research·12月12日·★★★★

FACTSベンチマークスイート:大規模言語モデルの事実性を体系的に評価

研究者らがFACTSベンチマークスイートを開発し、大規模言語モデルの事実性を体系的に評価する手法を提案した。

Google DeepMind·12月9日·★★★★

LLMで「何でも」できる時代のAIエンジニア生存戦略 - LLMのグラウンディング能力について

LLM/VLM時代において、グラウンディング(現実世界との接続)が苦手な点を克服するため、他のモデルとの組み合わせが重要であり、これが次世代AIエンジニアの必須スキルとなる。

Algomatic Tech Blog·7月18日·★★★★

Qwen VLo:世界を「理解」するから「描写」するへ

Qwenチームは、画像理解と高品質な生成を統合した新モデル「Qwen VLo」を発表しました。同モデルは、世界の理解から画像描写までを可能にします。

Qwen Blog·6月26日·★★★★

ByteDance、自律ロボットナビゲーション向け二重モデル「Astra」を発表

ByteDanceは、複雑な屋内環境での自律ロボットナビゲーション課題を解決するため、「Astra」を開発した。これは「現在地」「目的地」「経路」の3つの基本質問に答える二重モデルアーキテクチャであり、従来の手法の限界を克服する革新的な技術である。

Synced Review·6月24日·★★★★

今すぐAIを活用する:クイックガイド

筆者は、主要なAI製品の動作原理に重要な変化が生じたため、最新の利用ガイドを提示する。単なるモデルの優劣ではなく、一般ユーザーにとって最適な総合システムを選ぶことが重要であり、3つの優れた選択肢の中から適切なAIを選定する難易度を軽減することを目的としている。

One Useful Thing·6月24日·★★★★

AGIはマルチモーダルではない

言語モデルを思考のモデルと見なすことで、知能の基盤となる暗黙の身体的知覚を見失うと指摘。最近の生成AIの成功がAGIの到来を予感させるが、言語中心のアプローチには限界がある。

The Gradient·6月4日·★★★★

言語処理学会第31回年次大会(NLP2025) 参加レポート

2025年3月に長崎で開催された日本最大のNLP学会に参加。LLM発展で参加者・発表数が過去最大となり、企業ブース展示も実施。

ExaWizards Tech Blog·3月19日·★★★★

Stability AI、WPPからの投資と新パートナーシップを発表し、メディア・エンタメ制作の未来を形作る

Stability AIは広告大手WPPからの投資を受け、エンターテインメント制作における生成AIの企業利用に向けた戦略的パートナーシップを締結した。これはエンタープライズ向け生成AIの実装における重要なマイルストーンである。

Stability AI·3月6日·★★★★

新卒エンジニアの成長記録:マルチモーダルRAGハッカソンへの挑戦

新卒エンジニアが、先輩と共にマルチモーダルRAG技術を活用した3ヶ月間のハッカソン研修に取り組み、実用的なAIアプリケーション開発を通じて成長した経験を共有しています。

ExaWizards Tech Blog·11月1日

Llama 3.2が小型化とマルチモーダル化を実現

OllamaがMetaと提携し、Llama 3.2をOllamaプラットフォームに導入する。

Ollama Blog·9月25日·★★★★

Kaggle初参加の振り返り〜Shopeeコンペでソロ銀メダル獲得〜

MLエンジニアの川畑氏が、初参加のKaggleコンペ「Shopee Product Matching」で2426チーム中46位の銀メダルを獲得した経験を振り返っている。

ExaWizards Tech Blog·6月7日