#マルチモーダル のAIニュース
171件の記事
NVIDIA GPUアクセラレーションエンドポイントを使用したKimi K2.5マルチモーダルVLMの構築
Kimiが最新のオープンソース視覚言語モデル「Kimi K2.5」を発表した。このモデルは汎用マルチモーダルモデルであり、NVIDIA GPUアクセラレーションエンドポイントを活用して構築できる。
AI週間レビュー #334 - Kimi K2.5とコードエージェント、Genie 3、OpenClawとMoltbook
中国のMoonshotがオープンソースモデルKimi K2.5とコーディングエージェントを公開。GoogleはGenie 3のインタラクティブな世界構築プロトタイプをAI Ultra購読者に提供。
Grok Imagineがfalプラットフォームで利用可能に
xAIは、画像と動画の生成・編集を統合した「Grok Imagine」をAI開発プラットフォーム「fal」で提供開始。複数のモデルエンドポイントを単一スタックに統合し、アイデアから完成品までの制作プロセスを高速化した。
D4RT:AIに4次元で世界を見ることを教える
D4RTは、従来の方法よりも最大300倍高速な統合的な4次元再構築と追跡を実現する技術です。
Windsurf Next 1.13.106 の更新:Gemini 3 Flash が全ユーザーに提供開始
Windsurf Next 1.13.106 は、推論能力と高速性を兼ね備えた Gemini 3 Flash を全ユーザーに公開しました。このモデルはコーディングやエージェントワークフローに適しており、前世代より 3 倍高速な応答を実現しています。
Windsurf 1.13.5:Gemini 3 Flashの全ユーザー向け提供開始
Windsurfは、Gemini 3 Flashを全ユーザーに提供開始した。このモデルはPro級の推論能力とFlash級の速度を併せ持ち、反復開発やコーディング作業に最適化されている。
GPTとGeminiのマルチモーダルドキュメント認識能力評価
LayerXのR&Dインターン生が、OpenAI GPTとGoogle GeminiのAPI単体を用いて、スライドや図表などのマルチモーダルドキュメント認識能力を評価した結果を紹介する。
AI週間レビュー #329 - GPT 5.2、GenAI.mil、ディズニーとSora
OpenAIがGPT-5.2モデルシリーズをリリースし、日常業務での利用を想定した「Instant」「Thinking」「Pro」の3バージョンを提供した。
最新のSpeechLLMを用いた音声データからのエンティティ抽出の1年ぶりの検証
AI Shiftが最新のSpeechLLMで音声データからのエンティティ抽出を検証。昨年のOpenAI gpt-4o-audioの取り組みから1年後の進展を報告。
Agent Lightning:AIエージェントに強化学習をコード書き換えなしで追加
Microsoft Researchは「Agent Lightning」を開発し、AIエージェントに強化学習をコード書き換えなしで適用する手法を提供した。
FACTSベンチマークスイート:大規模言語モデルの事実性を体系的に評価
研究者らがFACTSベンチマークスイートを開発し、大規模言語モデルの事実性を体系的に評価する手法を提案した。
LLMで「何でも」できる時代のAIエンジニア生存戦略 - LLMのグラウンディング能力について
LLM/VLM時代において、グラウンディング(現実世界との接続)が苦手な点を克服するため、他のモデルとの組み合わせが重要であり、これが次世代AIエンジニアの必須スキルとなる。
Qwen VLo:世界を「理解」するから「描写」するへ
Qwenチームは、画像理解と高品質な生成を統合した新モデル「Qwen VLo」を発表しました。同モデルは、世界の理解から画像描写までを可能にします。
ByteDance、自律ロボットナビゲーション向け二重モデル「Astra」を発表
ByteDanceは、複雑な屋内環境での自律ロボットナビゲーション課題を解決するため、「Astra」を開発した。これは「現在地」「目的地」「経路」の3つの基本質問に答える二重モデルアーキテクチャであり、従来の手法の限界を克服する革新的な技術である。
今すぐAIを活用する:クイックガイド
筆者は、主要なAI製品の動作原理に重要な変化が生じたため、最新の利用ガイドを提示する。単なるモデルの優劣ではなく、一般ユーザーにとって最適な総合システムを選ぶことが重要であり、3つの優れた選択肢の中から適切なAIを選定する難易度を軽減することを目的としている。
AGIはマルチモーダルではない
言語モデルを思考のモデルと見なすことで、知能の基盤となる暗黙の身体的知覚を見失うと指摘。最近の生成AIの成功がAGIの到来を予感させるが、言語中心のアプローチには限界がある。
言語処理学会第31回年次大会(NLP2025) 参加レポート
2025年3月に長崎で開催された日本最大のNLP学会に参加。LLM発展で参加者・発表数が過去最大となり、企業ブース展示も実施。
Stability AI、WPPからの投資と新パートナーシップを発表し、メディア・エンタメ制作の未来を形作る
Stability AIは広告大手WPPからの投資を受け、エンターテインメント制作における生成AIの企業利用に向けた戦略的パートナーシップを締結した。これはエンタープライズ向け生成AIの実装における重要なマイルストーンである。
新卒エンジニアの成長記録:マルチモーダルRAGハッカソンへの挑戦
新卒エンジニアが、先輩と共にマルチモーダルRAG技術を活用した3ヶ月間のハッカソン研修に取り組み、実用的なAIアプリケーション開発を通じて成長した経験を共有しています。
Llama 3.2が小型化とマルチモーダル化を実現
OllamaがMetaと提携し、Llama 3.2をOllamaプラットフォームに導入する。
Kaggle初参加の振り返り〜Shopeeコンペでソロ銀メダル獲得〜
MLエンジニアの川畑氏が、初参加のKaggleコンペ「Shopee Product Matching」で2426チーム中46位の銀メダルを獲得した経験を振り返っている。