#マルチモーダル のAIニュース
133件の記事
GammaがVercelでデザイン重視のエージェントを構築
Gamma社は、ユーザーが一言でレイアウト・間隔・階層を考慮した完全なプレゼンテーションを自動生成できる「デザイン優先」のAIエージェントをVercelで開発した。同社は初期メンバーの3割をデザイナーとして採用し、設計へのこだわりを製品哲学に反映している。
Kimi Code Plan正式アップグレード:3倍の利用枠を継続して享受
月之暗面がKimi Code Planをトークン課金方式に変更し、期間限定だった3倍利用枠を恒久化した。これにより開発者はK2.5多モーダルモデルを制限なく活用できるようになり、プログラミング体験が向上した。
Nano Banana 2:プロ仕様の機能と超高速処理を融合
Nano Banana社が最新の画像生成モデルを発表した。同モデルは高度な世界知識、製品化レベルの仕様、被写体の一貫性などを、高速処理で提供する。
アリババのオープンソースQwen 3.5、GPT-5 miniとClaude Sonnet 4.5に対抗し低コストを実現
アリババが新AIモデルQwen 3.5を発表。競合モデルと同等性能を低コストで提供し、AI市場の競争激化を示唆。
ClaudeがExcelとPowerPointを自律的に切り替え可能に
AnthropicのAIアシスタントClaudeが、ExcelとPowerPoint間の作業を自動で切り替えられる新機能を発表。
Apple研究者がFerret-UI Liteを発表、UIを見て操作するオンデバイスAIモデル
Appleが開発したFerret-UI Liteは、モバイルやデスクトップ画面を理解し、UI要素を操作できる3BパラメータのオンデバイスAIモデルです。
AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク
GPT-4oなどの多モーダル大規模言語モデルは、複数話者の会話状況での発話者追跡や役割維持に課題がある。AMUSEはこの問題に対処するベンチマークとフレームワークを提案。
Apple 推論と計画ワークショップ 2025
AppleがAIの推論と計画能力を向上させる研究を進めており、自律的なAIシステムの開発を目指している。
LWiAIポッドキャスト #234 - Opus 4.6、GPT-5.3-Codex、Seedance 2.0、GLM-5
AI技術の最新動向を紹介するポッドキャスト。Opus 4.6、GPT-5.3-Codex、Seedance 2.0、GLM-5などの新モデルやアップデートについて議論。
Google I/O 2026の準備を始めよう
Google I/Oが5月19日から20日に開催され、Android、AI、Chrome、Cloudの最新情報がライブストリームで配信されます。
Windsurf エディタ 1.9552.24 リリース:新モデル追加と不具合修正
Windsurf はエディタのバージョン 1.9552.24 をリリースし、GitHub プルリクエスト拡張機能との互換性を修正しました。また、Gemini 3.1 Pro や Claude Sonnet 4.6 など新モデルを追加し、自己サービスユーザー向けに期間限定価格で提供を開始しました。
AAAI-2026 参加報告:サイバーエージェント村田氏がシンガポールで開催された人工知能国際会議に参加し、採択論文を発表
サイバーエージェントの AI チーム所属・村田氏は、1 月 20 日から 27 日にシンガポールで開催された人工知能研究の国際会議「AAAI-2026」に参加しました。同氏は学生時代から継続していた論文が採択され、過去最多の投稿数があった本会議で研究成果を発表しました。
NVIDIA GPUアクセラレーションエンドポイントを使用したKimi K2.5マルチモーダルVLMの構築
Kimiが最新のオープンソース視覚言語モデル「Kimi K2.5」を発表した。このモデルは汎用マルチモーダルモデルであり、NVIDIA GPUアクセラレーションエンドポイントを活用して構築できる。
AI週間レビュー #334 - Kimi K2.5とコードエージェント、Genie 3、OpenClawとMoltbook
中国のMoonshotがオープンソースモデルKimi K2.5とコーディングエージェントを公開。GoogleはGenie 3のインタラクティブな世界構築プロトタイプをAI Ultra購読者に提供。
Grok Imagineがfalプラットフォームで利用可能に
xAIは、画像と動画の生成・編集を統合した「Grok Imagine」をAI開発プラットフォーム「fal」で提供開始。複数のモデルエンドポイントを単一スタックに統合し、アイデアから完成品までの制作プロセスを高速化した。
D4RT:AIに4次元で世界を見ることを教える
D4RTは、従来の方法よりも最大300倍高速な統合的な4次元再構築と追跡を実現する技術です。
Windsurf Next 1.13.106 の更新:Gemini 3 Flash が全ユーザーに提供開始
Windsurf Next 1.13.106 は、推論能力と高速性を兼ね備えた Gemini 3 Flash を全ユーザーに公開しました。このモデルはコーディングやエージェントワークフローに適しており、前世代より 3 倍高速な応答を実現しています。
Windsurf 1.13.5:Gemini 3 Flashの全ユーザー向け提供開始
Windsurfは、Gemini 3 Flashを全ユーザーに提供開始した。このモデルはPro級の推論能力とFlash級の速度を併せ持ち、反復開発やコーディング作業に最適化されている。
GPTとGeminiのマルチモーダルドキュメント認識能力評価
LayerXのR&Dインターン生が、OpenAI GPTとGoogle GeminiのAPI単体を用いて、スライドや図表などのマルチモーダルドキュメント認識能力を評価した結果を紹介する。
AI週間レビュー #329 - GPT 5.2、GenAI.mil、ディズニーとSora
OpenAIがGPT-5.2モデルシリーズをリリースし、日常業務での利用を想定した「Instant」「Thinking」「Pro」の3バージョンを提供した。
最新のSpeechLLMを用いた音声データからのエンティティ抽出の1年ぶりの検証
AI Shiftが最新のSpeechLLMで音声データからのエンティティ抽出を検証。昨年のOpenAI gpt-4o-audioの取り組みから1年後の進展を報告。
Agent Lightning:AIエージェントに強化学習をコード書き換えなしで追加
Microsoft Researchは「Agent Lightning」を開発し、AIエージェントに強化学習をコード書き換えなしで適用する手法を提供した。
FACTSベンチマークスイート:大規模言語モデルの事実性を体系的に評価
研究者らがFACTSベンチマークスイートを開発し、大規模言語モデルの事実性を体系的に評価する手法を提案した。
LLMで「何でも」できる時代のAIエンジニア生存戦略 - LLMのグラウンディング能力について
LLM/VLM時代において、グラウンディング(現実世界との接続)が苦手な点を克服するため、他のモデルとの組み合わせが重要であり、これが次世代AIエンジニアの必須スキルとなる。
Qwen VLo:世界を「理解」するから「描写」するへ
Qwenチームは、画像理解と高品質な生成を統合した新モデル「Qwen VLo」を発表しました。同モデルは、世界の理解から画像描写までを可能にします。
ByteDance、自律ロボットナビゲーション向け二重モデル「Astra」を発表
ByteDanceは、複雑な屋内環境での自律ロボットナビゲーション課題を解決するため、「Astra」を開発した。これは「現在地」「目的地」「経路」の3つの基本質問に答える二重モデルアーキテクチャであり、従来の手法の限界を克服する革新的な技術である。
今すぐAIを活用する:クイックガイド
筆者は、主要なAI製品の動作原理に重要な変化が生じたため、最新の利用ガイドを提示する。単なるモデルの優劣ではなく、一般ユーザーにとって最適な総合システムを選ぶことが重要であり、3つの優れた選択肢の中から適切なAIを選定する難易度を軽減することを目的としている。
AGIはマルチモーダルではない
言語モデルを思考のモデルと見なすことで、知能の基盤となる暗黙の身体的知覚を見失うと指摘。最近の生成AIの成功がAGIの到来を予感させるが、言語中心のアプローチには限界がある。
言語処理学会第31回年次大会(NLP2025) 参加レポート
2025年3月に長崎で開催された日本最大のNLP学会に参加。LLM発展で参加者・発表数が過去最大となり、企業ブース展示も実施。
Stability AI、WPPからの投資と新パートナーシップを発表し、メディア・エンタメ制作の未来を形作る
Stability AIは広告大手WPPからの投資を受け、エンターテインメント制作における生成AIの企業利用に向けた戦略的パートナーシップを締結した。これはエンタープライズ向け生成AIの実装における重要なマイルストーンである。
新卒エンジニアの成長記録:マルチモーダルRAGハッカソンへの挑戦
新卒エンジニアが、先輩と共にマルチモーダルRAG技術を活用した3ヶ月間のハッカソン研修に取り組み、実用的なAIアプリケーション開発を通じて成長した経験を共有しています。
Llama 3.2が小型化とマルチモーダル化を実現
OllamaがMetaと提携し、Llama 3.2をOllamaプラットフォームに導入する。
Kaggle初参加の振り返り〜Shopeeコンペでソロ銀メダル獲得〜
MLエンジニアの川畑氏が、初参加のKaggleコンペ「Shopee Product Matching」で2426チーム中46位の銀メダルを獲得した経験を振り返っている。